数据可视化中的易犯错误及解决方法

数猎天下DataHunter2018-11-08 12:21:51


过去10年,数据可视化的普及和影响急剧增加,根据Google的数据显示,自2009年以来,“数据可视化”的搜索频率几乎增长了100%,同时,这一领域也出现了大量的软件和工具,几乎任何人都可以借助这些工具轻松地制作数据可视化图表。


由于人类大脑能够以更快的速度处理图像,所以出于本能,我们更热衷于使用图像表达而非文本。然而,这并不意味着你可以把大量的图像(或者说图表)以及各种形状的图形放在仪表盘上,并期望读者为之赞叹。在图像认知背后,你还要考虑其他东西,这与人类的潜意识相关,我们称之为第一印象。



我们都知道这句话:第一印象会持续一生。有非常多的例子也可以证明这一点。比如我们会本能的战斗和逃跑,类似于这种无意识思维的行为,也可以称为快速认知。毫无疑问,这要比经过深思熟虑所产生的决策更为本能,也更加迅速。


快速认知是我们在非常短暂的时间中进行挖掘和衡量的重要能力。尽管我们被告知不要试图从封面来判断一本书的好坏,但我们每天都在频繁地使用这种快速认知的能力,通过它快速解析海量信息,发现哪些是最为重要的,而非更多采取较慢的、理性的思维方式。


心理学家将这种现象称为“薄片(thin-slicing)”:在几秒钟内感知细节或信息,大脑的理性部分可能花费数月甚至数年的时间。Malcolm Gladwell将其描述如下:


薄片(thin-slicing)是人类的重要组成部分。每当遇到一个陌生人或必须快速理解的某件事时,我们就会触发薄片现象......如今,我们非常依赖这种能力,因为在很多情况下,即使不超过一秒钟,我们也能分辨出很多信息。


当然,在现实中,你可以通过某些方法来改变或反驳他人对你的不良的第一印象,让他们可以更加深入的了解你,但在网络中要困难的多。所以,绝不能让你的数据可视化给人留下不好的第一印象。为了防止这种情况发生,下面我将着重讲解5个数据可视化过程中常见的错误类型。

数据过载问题


许多数据可视化和BI仪表盘都成为数据过载的牺牲品——主要原因在于可视化内容过于拥挤,很多不必要的内容可能会让数据更加难以理解。例如,三维图表虽然看起来令人印象深刻,但它们往往会使数据的解释更加困难。



同样,对于带有超过5个数据图表和众多标签的BI仪表盘来说,确实能够展现出大量信息,但如果读者们无法区分哪些是有用的、哪些是无用的,展现再多的信息也毫无价值。不必要的插图、阴影、字体和其他装饰会让数据看上去更加分散,数据分析师应该少用。对于数据可视化来说,大多数情况下,少即是多。

访问轴数值设置不当


在处理定量数据时,条形图或折线图是两种最佳的可视化方法。但是,很多数据分析爱好者都会出现一个与图表轴相关的错误:对于较大的Y轴值来说,如果初始值设定到大于零,那么很可能会截断某些条形值,影响数值的准确性(如下图)。


数值比例不清晰


我们在分析数据时,通常需要以整体到部分的形式进行展现,这时我们就需要用到饼图。饼图是一种非常流行且受欢迎的数据表现形式,然而却一直饱受非议。



原因在于,如果不在图表中加入标签,那么实际上很难区分饼状图每一段的大小(你能看出23.48%和23.86%的差异吗?),所以,想要确保图表清晰明了,所有区域都要添加标签。另外,使用饼图时,还要注意类别数量,细分太多也可能导致无法区分每个区域。

混乱的交叉线


位于特定范围内的数据通常用于展示随时间的变化。 因此,折线图是传达数据之间的变化或差异的有效方式。 您可能已经开始注意到这里的趋势,但重要的是不要在图表中使用太多的线。 在图表上有大量的交换线会很快变得混乱,因此我们建议不要使用超过4个系列。


热图颜色问题


热图是数据可视化领域比较新颖的图表之一,且流行速度很快。地理空间数据非常适合用于创建热图,但其中有一些问题需要特别注意——颜色和数据范围需要小心使用。



如果有些颜色太过于突出,可能会给该数据带来不必要的权重。相反,使用具有不同阴影的单一颜色来显示突出级别更加合适。对于数据本身,选择3到6个数值范围最为合理,并要让它们的数值均匀分布。使用<和>号可以扩展数值范围。




Copyright © 古田计算器虚拟社区@2017