我们现在生活的每一秒都在产生着数据,比如你现在看这篇文章的时候。用的什么手机,型号,你所在地点,点开这篇文章的时间,花了多久看的文章……都是被收集的数据。

当同类的数据集合在一起,甚至于纵向的其他数据展开联系时,都可以成为大数据。取决于是谁用这些数据,以及使用目的,大数据没有严格意义上的类型界定。但是当你有了庞大的数据后,如何最直接的反应数据情况?如何以最快的速度发现需要进一步分析的数据?做了一系列分析得出结果后,如何如何简单快速的说服你的读者或者领导?

常用的数据可视化技术有什么(带你一文读懂数据可视化)(1)

我们本身可能就是大数据的生产者。也会是使用者。

什么是数据可视化?

其实大数据是一个很空洞的概念,具体的意义针对不同的人有不同的含义。大数据的基本流程链包括:数据挖掘,数据清理,数据存储,数据分析,数据展示。

数据可视化就是这样一种,贯穿数据分析整个时期,在前期助数据分析人员通过迅速呈现整体数据,发现可能的问题点,后期通过可视化,后期将数据分析结果更快速的呈现在读者面前。数据可视化可以通过使用图形、图标、色彩变化等各种组合对数据进行解读,从而使人们快速理解一组或多组数据中的复杂关系。通过数据可视化,人们可以从中辨别出趋势,固定模式,发现特定问题,甚至可以为决策提供依据

拿最近新冠的例子来说,你一定很熟悉下面的这些图了:

常用的数据可视化技术有什么(带你一文读懂数据可视化)(2)

全国新增新冠确诊人数(图片来源:丁香园)

常用的数据可视化技术有什么(带你一文读懂数据可视化)(3)

全国现存累计确诊人数分布(图片来源:丁香园)

常用的数据可视化技术有什么(带你一文读懂数据可视化)(4)

国内新增确诊数据(图片来源:丁香园)

第一第二张图就是数据可视化的例子。折线图和地图很直观的将第三张图的新冠肺炎每日新增人数,以及分布,很直观的用图像表现出来,而省去读者对第三张图标具体数字的解读和处理。当读者需要进一步了解图形背后的具体数字时,读者可以去第三张图标进行研读。而这仅仅是最简单的例子。

我们为什么需要数据可视化?

通过上面的例子,如果说大数据可以帮助我们找到规律和趋势,那数据可视化是一种将数据直观呈现出来的方式。数据可视化贯穿数据清理,数据整合的一个步骤。比如说你是一名销售人员要向上一级汇报销售成果。你涉及的数据可能包括客户姓名,客户地址,购买产品,购买型号,购买数量,购买日期,购买单号,发货时间,发货方式,销售金额,折扣数目,利润率……你应该从何种角度下手处理你的数据,你得出需要加强某个产品的宣传的结论时,觉得你的领导是更愿意直观的了解到结果,还是愿意花15分钟一页一页研读你的分析?

常用的数据可视化技术有什么(带你一文读懂数据可视化)(5)

美国民众对新冠病毒看法的变化,用图像的形式比用电子表格或者文字的形式,更加具体直接。(图源:538)

所以数据可视化可以简化人脑处理信息,并得到结论的一种有效手段。我们人脑更容易通过图像等视觉上的呈现来得出一定的结论。就算一些分析人员可以通过复杂的演算,模型设计得出某些结论,但这些结论远远没有比直接用图形来总结来的更直观。

拿个最简单的例子来说,北京上海的地铁公交图就可以称为一种数据可视化。纵横交错的轨道交通,不同的线路站点,相交的换乘点,如果通过文字或者表格来呈现远远不及轨交地图来的直观明了

常用的数据可视化技术有什么(带你一文读懂数据可视化)(6)

上海轨交地图(图片来源:TravelChinaGuide)

既然连轨交地图都是数据可视化的一种,那你可以放开了联想,其实生活中很多方面,我们都涉及数据可视化

数据可视化和数据分析有什么区别?

数据可视化很容易和数据分析相混淆,诚然两者有相似之处——数据可视化和数据分析都是在可视界面中展示数据。

常用的数据可视化技术有什么(带你一文读懂数据可视化)(7)

多组可视化合在一起时,可以展示更多的信息甚至可以讲述一个完整时间(图源:Center for Data Innovation)

是两者还有很多方面有不同。数据分析是一个探索性的过程。因为很多数据分析人员拿到数据后,通常有一个特定问题需要去发现,围绕着这个问题,要进行不同测试,需要足够的耐心才能发现使用某个手段,集中分析某些数据,才能体现出某些关系,并且回答最初的问题。而数据可视化是数据分析中的一部分前期后期都可以通过数据可视化,做到更有效的数据分析,以及更清楚的呈现最终分析结果。大致概括如下:

  1. 使用目的不同。数据分析可以发现某些潜在的模型,或者趋势,可以帮助预测某些将来发生的事件。数据分析所使用的前期或后期的数据,可以作为数据可视化的数据源。而数据可视化能够更直观的呈现某一局部特征,更明确的展现出某个变量的影响,前期是帮助数据分析人员了解大体数据情况,发现异常值。后期通过可是后分析的数据,更好的展现分析结果。
  2. 两者之间关系不同。数据分析是将分析和可视化相结合,去找出某些结论。有时候,数据分析是数据可视化的前端,数据可视化呈现的就是数据分析的结果。
  3. 使用工具不同。数据分析一般通过规范分析(prescriptive analytics)和预测分析(predictive analytics),诊断分析(diagnostic analytics)。数据分析所使用的工具有Excel ,Hive, Ploybase,SAP Business Intelligence,Presto, Trifacta,Clear Analytics,等等。而数据可视化可以是静态展示也可以是互动展示数据,所使用的工具有:Plotly,DataHero,Tableau,QlikView,ZingCHhart 等等

常用的数据可视化技术有什么(带你一文读懂数据可视化)(8)

Tableau的互动式可是数据化。(图源:TABLEAU)

数据可视化能够如何帮助数据分析,并达到哪些目的?

数据可视化有很多用途,每种类型的数据可视化可以有不同的用途。这里就说一下数据可视化的最常见的情况。

常用的数据可视化技术有什么(带你一文读懂数据可视化)(9)

四种基本的数据可视化图形(图源:The Coding Room)

数据可视化有哪些类型?

可视化图类型有多种多样,这里我列举了大多数市面上能见到的可视化类型图。

常用的数据可视化技术有什么(带你一文读懂数据可视化)(10)

折线图(图源:New Zealand Census)

常用的数据可视化技术有什么(带你一文读懂数据可视化)(11)

面积图(图源:Wikepedia)

常用的数据可视化技术有什么(带你一文读懂数据可视化)(12)

条形图(图源:Naomi Robbins|Forbes)

常用的数据可视化技术有什么(带你一文读懂数据可视化)(13)

直方图(图源:Naomi Robbins|Forbes)

值得注意的是条形图和直方图是有区别的。条形图的宽度表示类别且固定,长度表示频数。直方图用“面积”表示各组频数,举行高度表示每一组的频数,宽度表示组距,因此高度与宽度均有意义。直方图为X轴为连续数列,且连续排列。条形图X轴为分类数据,分开排列。

常用的数据可视化技术有什么(带你一文读懂数据可视化)(14)

散点图(图源:Wikimedia)

常用的数据可视化技术有什么(带你一文读懂数据可视化)(15)

箱型图(图源:Wikimedia)

常用的数据可视化技术有什么(带你一文读懂数据可视化)(16)

气泡图(图源:Tony Hirst | Flickr)

常用的数据可视化技术有什么(带你一文读懂数据可视化)(17)

饼图(图源:Wikimedia)

常用的数据可视化技术有什么(带你一文读懂数据可视化)(18)

量规图(图源Ken Flerlage | The FlerlageTwins)

常用的数据可视化技术有什么(带你一文读懂数据可视化)(19)

地图

此处特别推荐哈佛大学地理分析中心(Center for Geographic Analysis - Harvard University)https://gis.harvard.edu/researchhttp://worldmap.harvard.edu/africamap/

以及哈佛大学做的非洲地图:http://worldmap.harvard.edu/africamap/ 这张互动地图包括了经济,宗教,社会,人口,历史,交通等方方面面。

这就有很多种了。这里就放一个我曾使用过的眼动仪(eye tracking)所产生的热图

常用的数据可视化技术有什么(带你一文读懂数据可视化)(20)

眼动仪其中的热图功能(图源:Rosenfeld Media | Flickr

常用的数据可视化技术有什么(带你一文读懂数据可视化)(21)

通常框架图指的是树图(图源:Wikimedia)

常用的数据可视化技术有什么(带你一文读懂数据可视化)(22)

瀑布图(图源:Wikipedia)

常用的数据可视化技术有什么(带你一文读懂数据可视化)(23)

使用R创建的漏斗图(图源:Neha Kuma | Sisense)

常用的数据可视化技术有什么(带你一文读懂数据可视化)(24)

雷达图(图源:middlebury.edu)

这些就是市面上你可以见到的数据可视化图形。当然还有其它形式的,以及图形与图形之间的叠加组合,比如折线图与直方图的组合等等,我就不一一列举了。

因此数据可视化并非那么神秘,我们常用的EXCEL就可以做出上述可视化图形中的好几种。除了Excel,Tableau可以创建其中绝大部分的数据可视化,而且通过使用其中的Dashboard可以创建互动式的数据可视化,story功能实现图组创建故事讲述功能。最最重要的是Tableau提供免费版本,使用Tableau的一切功能。免费版本和付费版本的区别在于保存,付费版本可以保存在本地,而免费版本可以上传到Tableau的公共资源网上,和别人分享你所创建的数据可视化,同时还能查看别人创建的各种出色的可视化。

**作者为在读博士狗,由于平时课业比较繁忙,无法做到每日更新,请谅解,也谢谢大家关注。

参考文献:

Bycoffe, A., Groskopf, C., & Mehta, D. (2020). How Americans View The Coronavirus Crisis And Trump’s Response. Retrieved from FiveThirtyEight website: https://projects.fivethirtyeight.com/coronavirus-polls/?cid=rrpromo

Causes of the Great Recession. (n.d.). Retrieved from Wikipedia website: https://en.wikipedia.org/wiki/Causes_of_the_Great_Recession

Census 2013 – religious diversity. (2013). Retrieved from New Zealand Census website: https://openparachute.wordpress.com/2013/12/10/census-2013-religious-diversity/

Data visualization beginner’s guide: a definition, examples, and learning resources. (2020). Tableau. Retrieved from https://www.tableau.com/learn/articles/data-visualization

Data Visualization with Julia and JuliaBox. (2019). Retrieved from The Coding Room website: https://projectcodeed.blogspot.com/2019/09/data-visualization-with-julia-and.html

Media, R. (2013). Eye Tracking the User Experience: APractical Guide to Research. Retrieved from Flickr website: https://www.flickr.com/photos/rosenfeldmedia/10910197294

Flerlage, K. (2018). Percentage Gauges in Tableau. The Flerlage Twins. Retrieved from https://www.flerlagetwins.com/2018/01/percentage-gauges-in-tableau_61.html

File:En visualize explore tree map hs92 export tha all show 2013.svg. (n.d.). Retrieved from Wikimedia website: https://commons.wikimedia.org/wiki/File:En_visualize_explore_tree_map_hs92_export_tha_all_show_2013.svg

File:Geotagged articles in English Wikipedia.png. (n.d.). Wikimedia. Retrieved from https://commons.wikimedia.org/wiki/File:Geotagged_articles_in_English_Wikipedia.png

File:IQWN-scatterplot.png. (n.d.). Wikipedia. Retrieved from https://en.wikipedia.org/wiki/File:IQWN-scatterplot.png

File:Michelsonmorley-boxplot.svg. (n.d.). Retrieved from Wikipedia website: https://commons.wikimedia.org/wiki/File:Michelsonmorley-boxplot.svg

Kumar, N. (2020). Creating a split funnel chart in R. Retrieved from Sisense website: https://support.sisense.com/hc/en-us/community/posts/360038203894-Creating-a-split-funnel-chart-in-R

Hirst, T. (2010). Visualising traffic count data - bubble chart. Retrieved from Flickr website: https://www.flickr.com/photos/psychemedia/4284786470

McLaughlin, M. (2019). Creating Data Visualizations in the BBC’s Style. Retrieved from Center for Data Innovation website: https://www.datainnovation.org/2019/02/creating-data-visualizations-in-the-bbcs-style/

Nowicki;, H., & Merenstein, C. (n.d.). Radar Chart. Retrieved from https://skylight.middlebury.edu/~candrews/showcase/infovis_techniques_s16/radar_chart/

Robbins, N. (2012). A Histogram is NOT a Bar Chart. Retrieved from Forbes website: https://www.forbes.com/sites/naomirobbins/2012/01/04/a-histogram-is-not-a-bar-chart/#6773babb6d77

Shanghai Metro Maps. (2020). Retrieved from Travel China Guide website: https://www.travelchinaguide.com/cityguides/shanghai/transportation/metro-subway-map.htm

Waterfall chart. (n.d.). Retrieved from Wikipedia website: https://en.wikipedia.org/wiki/Waterfall_chart

都清醒都独立. (2019). 直条图和直方图的区别. Retrieved from 知乎 website: https://zhuanlan.zhihu.com/p/53774152

丁香医生. (2020). 新型冠状病毒肺炎疫情实时动态. 丁香园. Retrieved from https://ncov.dxy.cn/ncovh5/view/pneumonia

,