如何选用最合适的图形表达数据?

科技   2024-10-30 13:32   江苏  

最近有群友提问关于数据可视化展示的问题,主要集中在如何选用最合适的图形表达数据的问题所以今天先写一篇关于数值型变量可视化的总结。

主要从三个维度讨论:

  • 待画图变量的个数
  • 数据是否具有序性
  • 数据点的个数

1 单变量

数据结构如下所示:

对于这类图,考虑使用频率分布直方图或密度图展示:

频率分布直方图

密度图

2 双变量

2.1 有序的双变量

有序的定义如下,变量Var1是严格有序的,取值为 1,2,3,4

对于这类数据结构,考虑使用带有散点或不带有散点的折线图表达,如下为带有散点的折线图:

面积图

2.2 无序的双变量

无序双意味着两个变量都不带顺序,结构如下所示:

这里要考虑待展示样本点的个数,一般情况下,如果小于2000个点,可以使用箱型图,散点图,频率分布直方图。

如下,箱型图:

如果待展示点超过2000,考虑使用小提琴图或密度图。

如下,小提琴图:

3 多变量

对于待展示变量数量超过2个的,依然要考虑数据是否有序、待展示点个数外,需要额外了解多变量展示图形都有哪些选项。常用的比如,

3.1 气泡图:

气泡图是一种散点图,其中添加了第三个维度:通过点的大小表示附加数值变量的值。

3.2 堆积面积图

堆积面积图是基本面积图的扩展,它在同一图形上显示多个组的值的变化。每个组的值都显示在彼此的顶部,这样就可以在同一个图形上检查一个数值变量的总和的演变,以及每个组的重要性。

3.3 相关图

相关图或相关矩阵允许分析矩阵中每对数值变量之间的关系。

3.4 热力图

热力图是数据的图形表示,其中矩阵中包含的单个值表示为颜色。这有点像从上面看数据表。

3.5 树状图

树状图是一种网络结构。它由一个根节点构成,根节点产生多个由边或分支连接的节点。

还能结合热力图和树状图:

以上就是常用的对于数值型变量的选图参考指南,希望对各位进行数据可视化时有所帮助。



Crossin的新书《码上行动:用ChatGPT学会Python编程》已经上市了。本书以ChatGPT为辅助,系统全面地讲解了如何掌握Python编程,适合Python零基础入门的读者学习。【点此查看详细介绍】
购买后可加入读者交流群,Crossin为你开启陪读模式,解答你在阅读本书时的一切疑问。
Crossin的其他书籍:


添加微信 crossin123 ,加入编程教室共同学习~

感谢转发点赞的各位~
Crossin的编程教室
每天5分钟,轻松学编程。点击关注这里有浅显易懂的 Python 入门教程。 编程世界的新手指南。
 最新文章