数据-可视化
点亮科研之光
科研数据可视化方法介绍
引言
有效的数据可视化既是一门艺术,也是一门科学。数据可视化是一种把抽象的数据用直观的图形、图像呈现出来的方法。一张图片最大价值在于它迫使我们注意到我们从未期望看到的东西。
主讲嘉宾
杨青
学科服务部学科馆员
研究方向:情报分析与信息咨询
一、数据可视化的价值和目的
直观展示
数据可视化是一种强大的工具,它不仅帮助我们更深入理解数据,还能揭示数据背后隐藏的本质和规律。通过将数据以图形或图表的形式呈现,我们能够更直观地识别模式和趋势,从而更有效地从大量信息中提取有价值的见解。
便于理解
此外,数据可视化通过展示有意义的数据点,能够吸引并保持读者的注意力,使复杂的数据信息变得易于消化和记忆。
助力决策
更重要的是,数据可视化能够讲述数据背后的故事,通过突出关键内容,它传达了数据想要表达的核心信息,使得数据不仅仅是数字的堆砌,而是有说服力的叙述。这种叙述能力使得数据可视化成为了传达复杂信息和促进决策的不可或缺的工具。
二、数据可视化的历史案例
1.南丁格尔玫瑰图
南丁格尔通过绘制玫瑰图,用面积差异化的方式显著地展示了战场伤亡数据,并吸引了当时女王和考察团的注意。
2.拿破仑东征图
1861年,法国工程师查尔斯·约瑟夫·米纳德(Charles Joseph Minard)绘制了一幅数据统计图表:《1812-1813对俄战争中法军人力持续损失示意图》。仅凭这一张图,就能让人直观感受到拿破仑的40万大军,如何在长途跋涉和严寒之中逐步溃散。被后人评价为:可能是史上最棒的统计图表。
三、数据可视化核心——视觉编码
1.可视化编码
数据可视化的核心内容是可视化编码,它是将数据转换为视觉变量的过程,核心是映射简单数据信息为图像元素。可视化编码由两部分组成,即几何标记(图形元素)和视觉通道。视觉通道包括点、线、面等基础图形元素,通过组合形成不同的视觉编码。
2.组合方式
视觉编码的组合方式包括分类、组合、定量定序等,用于区分和呈现数据关系。
四、科研数据的可视化和呈现内容
科研数据来源于科研实验,聚焦研究对象、背景、结果和结论。科研数据的可视化需要呈现实验数据的减少、增加、趋势、差异等,进而呈现问题及实验目的。针对科研数据的可视化,可以基于表达数据的侧重点内容选择适合的视觉通道,常用的视觉通道大概分为:类别比较、数值关联、数据分布、数据趋势、数据组成。
视觉通道
类别比较
用于展示不同类别之间的差异。通常使用颜色、形状、大小等视觉属性来区分不同的类别。例如,条形图、饼图、堆积图等。
数值关联
用于展示两个或多个数值变量之间的关系。通过位置、距离等视觉属性来表示数值变量之间的关联强度和方向。例如散点图、气泡图、热力图等。
数据分布
用于展示数据的分布情况,包括集中趋势和离散程度。通过连续的颜色渐变、密度图等来表示数据的分布密度。例如直方图、密度图、小提琴图等。
数据趋势
用于展示数据随时间或其他有序变量的变化趋势。通过线条、曲线等来表示数据随时间的变化。例如折线图、面积图等。
数据组成
用于展示整体与部分的关系,以及各部分之间的比例。通过面积、长度等视觉属性来表示各部分的比例。例如饼图、条环形图等。
五、可视化图形介绍
1.可视化图表的呈现方式
在绘制图表前,首先应该基于数据是单变量、双变量还是多变量数据,明确图表应呈现的是一组数据、一个数据列亦或多个数据列的关系。即从变量的关系出发确定图表的呈现方式。可视化图表可以使用Python中的Matplotlib库和Seaborn库进行制作。单变量数据、双变量数据以及多变量数据的典型可视化图表详见下图。
2.单变量数据可视化图表
直方图
直方图通过条形的高度和宽度来表示多个数据分布特征。需要注意的是,仅用基础的直方图代表数据分布比较单薄,在实际应用中应根据统计信息的核心点、关键点,通过在直方图中标识异常点,离散点,或添加正态分布曲线、中位线或均值线等叠加统计信息,以更加准确地表示数据。其实现函数和具体图例如下图所示。
密度图
密度图是直方图的平滑形式,可以使用 Seaborn 库的 kdeplot 函数来制作,并通过调整透明度和渐变效果来达到美观效果。图例如下图所示。
山脊图
山脊图是密度图的一种变形,其呈现的信息比较一目了然,可以用来表示多个群体的分布差异,比较某一因素对不同变量的影响,或者某一因素在不同时间上的变化。其绘制函数和具体图例如下图所示。
3.双变量数据可视化图表
柱状图
柱状图同样需要在基础图形上添加一些关键的数据点或数据线,通过叠加统计信息,达到有效呈现数据的目的。例如,在实际应用中,往往需要绘制带误差棒的柱状图,以体现实验数据误差以及不确定性。借助Seaborn 库中的 barplot 函数,可以绘制带 p 值的误差柱形图。使用 barplot 函数和 stripplot 函数,则可以绘制带数据点的误差柱形图。二者的具体图例如下图所示。
堆积图和百分比堆积图
堆积图和百分比堆积图是柱状图的变形,具体功能和实现函数如下图所示。
点带图
点带图,又称分簇散点图,同样是柱状图的一种变形。其实际上是把柱状图的条形替换为点,通过点数据来更好的表示变量间的互相关系。根据点之间的间距差异,点带图主要分为两种形式:一是间距密集化的点状图,可以通过 Seaborn 中的 barplot 函数实现;二是间距比较宽的点状图,又称蜂巢图,可以通过 swarmplot 函数实现。具体图例如下图所示。
棒棒糖图
通过 Matplotlib 的 scatter 函数和 hlines 函数进行数据点与数据线的结合,以实现棒棒糖图的绘制。棒棒糖图的优点是可以节省数据量比较大的可视化图表空间,并且其呈现的结果相对直观,实现方法也比较简单。
双棒棒糖图是棒棒糖图的一种变形,又叫哑铃图或DNA链图。其实际上是一种分组柱形图,可以呈现数据的每一类别所占百分比的范围。具体图例和实现函数如下图所示。
小提琴图
小提琴图常用于进行双变量的分布比较。该图往往需要与多种数据点或数据线进行组合展示,各个实现函数及具体图例如下图所示。
云雨图
云雨图是小提琴图的一种变形。具体的功能和实现函数如下图所示。
热力图
热力图常用于描述双变量的数据关联。主要分为相关性热力图和图形热力图,其功能和实现函数分别如下图所示。
4.多变量数据可视化图表
气泡图和矩阵气泡图
气泡图往往用于展示三个变量间的关系,矩阵气泡图则应用于三个及以上变量间关系的展示。二者的功能和实现函数分别如下图所示。
3D柱状/曲面图
3D柱状/曲面图是展示三维数据的图形,其实现函数和具体图例如下图所示。
平行线图
平行线图往往用于多维变量的分析和比较,在绘制时应注意不同数据线之间的颜色区分,以及数据线的间距设置,避免图形和数据展示的凌乱。其具体图例和实现函数如下图所示。
六、科研数据可视化的其他注意事项
1.科研数据可视化配色
色轮
颜色选择
原则与方法
原则与方法原则:
(1)颜色呈现数据关系;
(2)色彩种类两到三种;
(3)尽量使用柔和的色彩;
(4)避免同时出现红色和绿色;
(5)避免彩虹色阶
方法:
(1)取色——跟着顶刊学配色;
(2)配色工具及网站;
(3)选用成熟的配色网站
2.科研数据可视化布局
对于科研数据可视化图表的布局,需要结合具体的文章类型等实际情况。三种主要构图布局如下图所示。
结语
杨青老师的精彩讲解,让我们了解到如何将数据转化为直观图形,从而揭示数据背后的故事和规律。从南丁格尔玫瑰图到拿破仑东征图,我们见证了数据可视化在传达复杂信息中的强大作用。杨青老师不仅分享了丰富的理论知识,还提供了实用的图表绘制技巧,让我们对科研数据可视化的配色、布局等细节有了更细致的认识。通过这些内容,我们能够更加有效地传达复杂信息,促进决策,讲述数据背后的故事。在此,要特别感谢杨青老师的精彩发言和辛勤准备!
以上就是本次讲座的主要内容,视频详见链接:
http://10.9.4.30/index.php?m=content&c=index&a=show&catid=21&id=1570
文案|崔丁悦 许凯尹
排版|方书珏
责编|方欣然
来源|东南大学图书馆
东南大学研究生会 学术交流中心
东南大学研究生会 宣传与新媒体中心