在日常工作中,我们常常需要借助数据可视化的方法,更好地展示自己的洞见,让信息传递变得更加高效。最近,我看了两本与数据可视化相关的书,分别是《更好的数据可视化指南》和《Excel 数据可视化实操指南》,作者是美国的乔纳森·施瓦比什(Jonathan Schwabish),他是一个经济学家、作家、教师,也是一个数据可视化的专家。这两本书的译者是易炜老师,他认为要做好数据可视化,需要非常广泛的知识,包括但不限于格式塔心理学、设计原理、色彩规则、图表类型等。《更好的数据可视化指南》这本书包括 3 个部分,主要介绍了数据可视化的指导原则、图表类型和样式指南,目的是提升图表素养,丰富图表工具箱。
结合《更好的数据可视化指南》和作者博客中的内容,下面介绍 5 个数据可视化的指导原则:① 展示数据 ② 减少混乱 ③ 图文结合 ④ 前注意加工 ⑤ 从灰色开始。
这些指导原则能帮我们更好地理解和满足受众的需求,为制作合适的图表奠定基础。例如,下面两张散点图,右边突出显示几个想要强调的数据点,这样更容易阅读。删除不必要的视觉元素,例如:加粗的网格线、纹理填充、渐变等都可以去掉。把图表与文字融合在一起,各自为信息传递做出贡献。例如:在折线图的尾部直接标注相应的文字,而不是用图例。前注意加工是心理学中的一个概念,指的是在注意力集中之前,大脑会快速自动进行初步处理,帮助我们瞬间筛选出差异比较大的信息。刚开始把整个图表设置为灰色,然后思考需要强调的地方,再给这些地方设置相应的颜色。我们在制作数据图表的过程中,不妨试着遵循这些指导原则,提升数据可视化的效果。
市面上教你怎么制作出漂亮、炫酷、华丽图表的资料比较多,但真正从源头上厘清怎么正确选择图表类型的资料却很少。
我曾在「数据可视化的方法和工具」一文中介绍过一些图表类型,后来 Chart.Guide 又增加了一些新的图表:在《更好的数据可视化指南》这本书中,作者基于图表的用途,把 80 多张图表分为 8 个大类:比较、时间、分布、地缘、关系、构成、定性和表格,比 Chart.Guide 中多了 2 个分类:定性和表格。各类图表是如何起作用的?它们的优缺点分别是什么呢?用于比较的图表有很多,包括各种各样的条形图,还有点状图、马赛克图、单元图、同型图、华夫图、热力图仪表图、子弹图、气泡图、桑基图、瀑布图等。虽然条形图很容易阅读和理解,但是千篇一律的条形图会让人感到无聊,因此有时需要找到更有吸引力的图表。例如,把桑基图用来展示公司的财务数据指标,可以帮助受众更加清晰地知道公司的主要经营模式。表现时间变化的图表,除了常见的折线图之外,还有斜率图、迷你图、凹凸图、周期图、面积图、流图、地平线图、甘特图、流程图、时间线等。虽然折线图清晰易读,但当不需要显示时间序列中的所有数据时,斜率图是一个不错的选择。例如,我们可以根据线条的陡峭程度,直观地感受到变化的幅度。呈现数据分布的图表有直方图、金字塔图、误差条形图、置信区间图、渐变图、扇形图、箱线图、蜡烛图、小提琴图、山脊图、蜂群图、麦穗图、云雨图、茎叶图等。对大多数普通读者来说,理解这些图表可能会有点困难,因为需要具备一定的统计学知识。例如,小提琴图可以用来显示数据的整体分布情况,其中越厚的区域表示这部分观测值越多,反之则越少。数据地图可以让受众从中找到自己与主题的关联,这是其他图表无法比拟的一个优势。然而,地理区域的大小与数据的重要程度可能并不相符,在绘制数据地图之前,要停下来想一想,这是一个正确的选择吗?我们可以权衡数据可视化的准确性与地图的熟悉度,通过变形地图的方式,来调整数据失真的问题。例如,用六边形表示每个省份,填充的颜色深浅与数值大小相对应。展示变量之间关系的图表,除了散点图之外,还有气泡图、平行坐标图、雷达图、和弦图、弧线图、网络图、树形图等。其中有些图表不常用,读者理解起来比较困难。这并不是说要刻意复杂化,或者干脆不使用,而是要促进自己思考,从而更好地呈现想要传递的信息。例如,可以使用标签、注释、标题、颜色、图例和提示来让图表更容易被理解。展示整体与部分之间关系的构成类图表,除了最常见的饼图之外,还有圆环图、树图、旭日图、南丁格尔图、维诺图等。在数据可视化领域,大家对饼图的使用存在一些争议。从感知层面来看,我们难以识别和对比每块饼的面积大小,但作为一种大众熟悉的图表,熟悉度本身就是有用的。如果你的目标是清晰、准确地判断数据的大小,那么饼图通常都不是最好的选择。但当扇形占比是我们熟悉的 25%、50% 或 75% 时,你可以用饼图轻松引导读者的注意力。假设你要写一份数据分析报告,想要说明某个类别的占比超过 50%,让读者了解显著的差异或关注某个类别,饼图就会很有用。比如,图标、图像、表情符号等视觉语言,可以吸引读者的注意力,便于读者对定性数据进行分类。词云图是可视化定性数据的一种流行方式,单词的大小与其出现的频次有关。例如,下面是朋友们描述我的一些词语,其中形容我最多的 3 个词是:自律、专业、严谨。设计良好的表格,可以帮助读者快速找到重要的数值,并从中发现规律。例如,下表是我 2023 年每天的情绪能量评分,从数据中可以看出,上半年的情绪能量比较高,而下半年的情绪能量比较低,尤其是 2023 年 12 月 24 日这一天,情绪降到低谷。通过时间记录,我可以找到这一天情绪低落的原因。
数据可视化的样式指南包括:定义构成要素、规定相应格式以及如何正确使用,例如字体、颜色、线条、样式、网格线、刻度线等元素,都会影响图表的清晰度和吸引力。
样式指南定义了设计图表的规范和策略,有点类似于论文的格式,其中包括数据可视化中构成要素的详细建议。例如,标题应该放在什么位置?字体的大小、样式和颜色是什么?来源:https://github.com/amycesal/dataviz-style-guide/blob/master/Sunlight-StyleGuide-DataViz.pdf我们可以根据样式指南,制作相应的数据可视化模版,然后直接套用,这样就能节省自己的时间和精力,让工作变得更加统一和高效,还能形成品牌效应。图表的配色非常重要,因为颜色能唤起人们的情感并引起注意,人们注意到图表的第一个因素可能就是颜色。身处信息时代的我们,很容迷失在信息海洋中,但借助好的数据可视化图表,我们可以拨云见日,从数据中看见有趣的信息,从信息中洞见有用的知识,并从知识中预见行动的智慧。
看完《更好的数据可视化指南》和《Excel 数据可视化实操指南》之后,我把其中的一些知识应用到《数据可视化》流程中,重新设计了一版流程图:数据可视化需要我们不断提升自己的审美能力,并在科学与艺术之间找到某种平衡。虽然有些图表看起来不够精确,但是能够有效吸引人的注意,所以,在某些场合下,对图表适当进行修饰还是有必要的。《更好的数据可视化指南》(Jonathan Schwabish,2022 年 8 月,ISBN:9787121440632)《Excel 数据可视化实操指南》(Jonathan Schwabish,2024 年 6 月,ISBN:9787121480355)