最近有群友提问关于数据可视化展示的问题,主要集中在如何选用最合适的图形表达数据的问题。所以今天先写一篇关于数值型变量可视化的总结。
主要从三个维度讨论:
待画图变量的个数 数据是否具有序性 数据点的个数
1 单变量
数据结构如下所示:
对于这类图,考虑使用频率分布直方图或密度图展示:
频率分布直方图
密度图
2 双变量
2.1 有序的双变量
有序的定义如下,变量Var1
是严格有序的,取值为 1,2,3,4
对于这类数据结构,考虑使用带有散点或不带有散点的折线图表达,如下为带有散点的折线图:
面积图
2.2 无序的双变量
无序双意味着两个变量都不带顺序,结构如下所示:
这里要考虑待展示样本点的个数,一般情况下,如果小于2000个点,可以使用箱型图,散点图,频率分布直方图。
如下,箱型图:
如果待展示点超过2000,考虑使用小提琴图或密度图。
如下,小提琴图:
3 多变量
对于待展示变量数量超过2个的,依然要考虑数据是否有序、待展示点个数外,需要额外了解多变量展示图形都有哪些选项。常用的比如,
3.1 气泡图:
气泡图是一种散点图,其中添加了第三个维度:通过点的大小表示附加数值变量的值。
3.2 堆积面积图
堆积面积图是基本面积图的扩展,它在同一图形上显示多个组的值的变化。每个组的值都显示在彼此的顶部,这样就可以在同一个图形上检查一个数值变量的总和的演变,以及每个组的重要性。
3.3 相关图
相关图或相关矩阵允许分析矩阵中每对数值变量之间的关系。
3.4 热力图
热力图是数据的图形表示,其中矩阵中包含的单个值表示为颜色。这有点像从上面看数据表。
3.5 树状图
树状图是一种网络结构。它由一个根节点构成,根节点产生多个由边或分支连接的节点。
还能结合热力图和树状图:
以上就是常用的对于数值型变量的选图参考指南,希望对各位进行数据可视化时有所帮助。