相同的数据、不同的视角:可视化如何影响数据解读

文摘   2024-11-25 22:01   中国  

👇 连享会 · 推文导航 | www.lianxh.cn

🍓 课程推荐:连享会:2025 寒假班
嘉宾:连玉君(初级|高级);杨海生(前沿)
时间:2025 年 1 月 13-24 日
咨询:王老师 18903405450(微信)

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:

作者:颜国强(东南大学)
邮箱:yangq0827@163.com

编者按:本文摘译自如下论文,特此致谢!

  • Bearfield, C. X., Van Weelden, L., Waytz, A., & Franconeri, S. (2024). Same Data, Diverging Perspectives: The Power of Visualizations to Elicit Competing Interpretations (Version 1). arXiv. Link (rep), PDF, Google.
  • Blog version, 2024, Same Data, Multiple Perspectives: Curse of Expertise in Visual Data Communication, -Link-

数据可视化可以像“模糊图形”一样从多种角度解读,即两个人面对同样的数据,也可能由于数据的视觉呈现方式或参与者关注的内容而被优先注意或强调,最终得出不同的结论。在本文的研究中,参与者观察了展示两方竞争的可视化图表,其中一方具有历史领先优势(A),另一方则正在快速追赶(B)。参与者或认为历史领先优势更为突出,预测 A 会获胜;或认为增长势头更为显著,预测 B 会胜出。研究结果表明,决策不仅会受到数据呈现方式的影响,还会受到人们视觉上感知到的模式影响。

1. 研究背景

在一幅可视化图表中,通常存在许多可以被感知的特征。人们可能会因为认知、习惯或偏见认为某些特征在视觉上更加显著。例如,在图 1 中,读者可能会注意到两条绿色线之间的对称性,也可能认为底部两条线的交点最为显著。因此,有效可视化设计的一个重要原则是有意识地突出你希望读者关注的关键模式或特征,更好地理解可视化设计如何影响人们对数据的决策至关重要

我们将可视化的这种特性与认知心理学中的“模糊图形”相比较。尽管可视化的各部分准确代表了基础数据,但由于人们的既有信念、知识和动机而导致对数据模式的不同识别和决策,用户对图表的解读可能是模棱两可且呈现出“多重稳定性”。例如,在解读全球温度趋势图时,相信气候变化的观察者倾向于关注上升的部分,而不相信气候变化的观察者更关注平稳的部分,表明他们正在确认自己的先验观念 。

2. 研究假设

可视化设计会显著影响人们对数据模式的感知和决策过程,这一现象可以通过“自上而下”的注意力控制和“自下而上”的视觉显著性机制来解释:

2.1 自上而下的注意力控制

不同的图表类型引导了人们直觉的关注点:折线图易于检测趋势,散点图突出离群点,直方图有助于发现极值。大脑通过感知代理(如视觉标记)快速提取模式,从而影响模式解读和因果推理。例如,柱状图中数据值的排列方式影响观察者对不同值的比较,而高度汇总的数据更可能引发因果性解读,分解数据则更适合相关性分析。这表明不同的可视化设计会通过感知适配性改变用户对数据的直觉反应。

2.2 自下而上的视觉显著性和个体差异

  • 可视化中的视觉线索会通过增强特定模式的显著性引导用户注意力。例如,颜色、热点、标题和图像中心等显著性元素可以吸引观察者视线,高亮和标注则通过减少“视觉噪声”提高数据模式的可见性。标注是数据叙事中最常用的技术之一,通过直接强调模式来提高注意力并促进记忆。例如,倾向性标题会使观察者倾向于记住与标题内容一致的信息,而非图表本身的模式。

  • 在个体差异方面,资产市场研究表明,投资者在提取趋势并形成对数据模式的预期时会表现出三种类型的期望:

  1. 持续型:认为趋势会继续延续;

  2. 均值回归型:认为趋势在不久的将来会反转;

  3. 随机游走型:认为金融回报没有特定模式,且随时间独立分布。

我们假设这三种期望类型可以推广到非金融数据的解读和决策。人们可能具备某些特质,使他们即使面对不同主题的可视化图表,也会提取出类似的模式并作出相似的决策。

基于以上背景,提出以下假设:

  • 假设 1 可视化的“模糊性”解读:用户可以将可视化解读为“模糊图形”,在相同数据中看到不同的模式并作出相反的决策。这种多样性可能受到个体差异和可视化设计的双重影响。

  • 假设 2 可视化设计影响感知模式:可视化设计会改变模式的视觉显著性,从而引导不同的模式提取和决策。

  • 假设 3 个体内的一致性:在不同可视化中,个体倾向于关注类似的模式并作出一致的决策。

  • 假设 4 视觉显著性驱动模式提取:数据模式的视觉显著性会显著影响用户的观察内容和决策。

  • 假设 5 叙事技术的效能差异:标注和高亮作为叙事技术在影响用户模式感知和决策上具有不同的效果。标注更容易改变用户的观察和决策,而高亮的效果较弱。

3. 实验

3.1 实验 1:二元选择的滑块可视化

参与者被随机分配到柱状图组或表格组,实验要求参与者预测“第 4 年学生会选举中哪一方会获胜(蓝党或绿党)”,并通过两种方式报告:二元选择:选择蓝党或绿党。滑块标注概率:滑块范围为 0 到 50(0 表示绿党可能获胜,25 表示平局,50 表示蓝党可能获胜),但数值对参与者隐藏。

参与者在完成决策后,还需简要说明其预测依据,并在随后选择与其推理过程最匹配的选项,具体如下:

  1. 蓝党最近获胜(选项 A)
  2. 绿党支持率逐年增加(选项 B)
  3. 蓝党连续三年获胜(选项 C)
  4. 绿党逐步缩小与蓝党的差距(选项 D)

   

实验结果表明,在柱状图中,参与者预测蓝党和绿党胜出的比例相等。而在表格中,由于表格直接展示对应的数据,避免图表形式的视觉引导。更多参与者预测蓝党胜出。从选项的分布中可以发现,蓝党支持者倾向于选择蓝党显著特征(A 或 C),而绿党支持者倾向于选择绿党显著特征(B 或 D)。实验 1A 验证了柱状图与表格作为可视化设计形式能够显著影响模式感知和决策(支持假设 2)。柱状图的设计使绿党支持率的增长趋势更直观,而表格则更适合强调蓝党的数值优势。此外,柱状图条件下的双峰分布也体现了决策的多重解读性(支持假设 1),即参与者基于对不同的数据可视化特征得出不同的结论。实验还观察到三种观察者类型:位置比较者倾向于关注蓝党的持续优势并预测其胜出;方向分辨者则聚焦于绿党的增长趋势或差距缩小,支持绿党;随机观察者则未表现出显著偏好。实验结果表明,可视化设计不仅影响观察者的模式感知,也塑造了其基于数据的推理与决策逻辑。

实验 1B 旨在检验实验 1A 中观察到的结果是否受任务顺序的影响。实验 1A 要求参与者先做出预测,然后再选择他们认为在图表中最显著的特征。而在实验 1B 中,任务顺序被颠倒:参与者首先需要选择柱状图中最显著的特征(如蓝党的历史优势或绿党的上升趋势),然后再预测选举的赢家。这种调整的目的是验证显著特征对决策的驱动作用,同时避免由于先做出决策而产生的认知偏差。重新招募相同条件的参与者后,参与者首先在图表中选择他们认为最显著的特征(图表中提供了与实验 1a 相同的四个选项),然后在下一页完成预测任务,包括滑块和二元选择两种形式。实验结果表明,显著特征的选择与参与者的预测有显著关联。例如,选择蓝党显著特征(如蓝党历年的持续领先)的参与者中,有 69.8%预测蓝党获胜;而选择绿党显著特征(如绿党支持率的持续上升)的参与者中,有 67.0%预测绿党获胜。这一关联通过卡方检验得到了统计学上的支持。实验 1B 成功复现了实验 1A 的柱状图结果,同时通过改变任务顺序,排除了潜在的顺序效应。这表明,可视化方式呈现的特征可能在参与者提取数据模式和做出决策中发挥了关键作用,进一步支持了假设 1。然而,由于实验 1B 并未直接操控可视化呈现,因此其因果关系尚需进一步验证,这将在实验 3 中探讨。

此外,实验再次观察到三种行为类型:

  1. 持续型比较者(Persistent Position Comparers):关注蓝党的显著特征并预测蓝党胜出。
  2. 方向型分辨者(Direction Differentiators):关注绿党的显著特征并预测绿党胜出。
  3. 随机观察者(Random Walkers):未表现出明确的偏好。

这些行为类型表明,个体的模式关注倾向可能具有一定的稳定性。为验证这一点,后续实验将进一步探讨这些行为是否在其他可视化类型中表现一致。

3.2 实验 2:折线图

实验 2 的目的是探讨人们在不同类型的可视化(柱状图和折线图)中是否会观察到相似的数据模式,以及这些模式是否会影响参与者的决策。研究还进一步检验了个体在不同可视化条件下对于可视化特征的稳定性,特别是是否存在一致的模式偏好。实验在延续实验 1A 和 1B 的基础上,将测试扩展到折线图,以验证这些发现是否具有广泛适用性。顶部线条对应柱状图中的蓝党,代表历史领先方;底部线条对应柱状图中的绿党,代表上升趋势方。参与者需要预测在“事件日”(Event Day)哪家公司会获得更高的市场份额,并说明理由。

实验结果表明,柱状图和折线图的滑块预测分布相似,均显示参与者在预测哪一方胜出时持有不同的观点。具体来说:

  • 柱状图的滑块分布与实验 1A 和 1B 一致,参与者在预测蓝党或绿党胜出上几乎均分。折线图的滑块分布与柱状图类似,表明折线图也具有引发对立解读的模糊性。
  • 在二元选择中,参与者的预测结果显示了与可视化特征一致的模式偏好:预测顶部线条胜出的参与者往往指出支持顶部线条的显著特征,而预测底部线条胜出的参与者倾向于关注支持底部线条的特征。

实验 2 的结果支持假设 3,即个体在不同可视化中表现出一致的模式偏好,并且实验 2 观察到与实验 1A 和 1B 类似的三种行为类型:

  1. 持续型比较者:关注蓝党(顶部线条)的持续优势,预测其胜出。
  2. 方向型分辨者:关注绿党(底部线条)的上升趋势,预测其胜出。
  3. 随机观察者:未表现出明确偏好,其预测与显著特征不匹配。

为了进一步检验可视化特征与个人偏好在数据分析中的作用,后续实验将通过高亮和标注操控可视化特征,从而更精确地验证两者的相对影响。

3.3 实验 3:注释和高亮

该实验旨在研究两种常见的数据故事讲述技术——注释(Annotation)和高亮(Highlighting)——如何影响参与者对数据的感知和决策。此外,还引入了重新着色(Recoloring)技术,以测试通过改变颜色强度是否能够提高数据模式的视觉显著性,具体来说:

  • 如果视觉显著性在决策中起主导作用,那么参与者会更多地依据视觉上显著的特征作出与之一致的决策(例如,注释强调蓝方的连胜,参与者更可能预测蓝方获胜)
  • 如果个人偏好起主导作用,那么注释和高亮等技术的影响将被削弱,参与者的决策更倾向于个人倾向(例如,持续关注特定位置的比较模式)

该实验设计与上述两个实验保持一致,即随机招募参与者,参与者完成二选一决策,预测哪一方(蓝或绿)可能胜出;参与者标注其认为视觉上最显著的特征;在滑块任务中,用量化方式评估胜出的可能性,以下内容是具体的实验结果。

注释(A1,A2):参与者更倾向于根据注释的显著特征做出一致的预测。如果蓝色的连胜被注释,参与者更可能预测蓝色获胜。

高亮(B1,B2):与注释相比,高亮特征对参与者决策的影响较弱,分布结果显示一致性较低。

重新着色(C1,C2):类似于高亮,重新着色对参与者决策的影响也不显著。这表明通过颜色改变提升视觉显著性的效果有限。

实验 3 部分验证假说 4,尤其是在注释条件下,视觉显著性确实是影响决策的重要因素。然而,高亮和重新着色未能达到同样的效果,这表明它们不足以显著增强数据模式的显著性。实验 3 验证了假说 5。视觉显著性和个人偏好在不同技术条件下共同作用,显著性较强时(注释)主导决策,显著性较弱时(高亮和重新着色)个人偏好占据主导地位。从实验 3 中,我们可以得出如下两个结论:

  • 视觉显著性 vs 个人偏好: 注释是一种更为有效的数据讲述技术,能够引导参与者对特定数据模式做出一致性解释。相比之下,高亮和重新着色依赖于较弱的视觉提示,使得个人偏好(例如,某些参与者倾向于对特定位置进行比较)在决策中占据主导地位。
  • 数据讲述的启示: 设计强有力的视觉提示(如注释)对于有效引导观众的注意力和决策至关重要。而像高亮和重新着色这样的技术可能需要更多设计优化才能达到类似效果。

4. 结论与启示

4.1 可视化解读的多样性

实验表明,数据可视化的解读类似于模糊图形(ambiguous figures)。不同的人可能关注相同数据的不同模式,从而得出相互对立的结论。这种多样性与行为经济学、心理学和数据可视化的现有研究一致,证明个体倾向和偏好对模式提取和决策的关键影响。

4.2 注释的力量

实验结果显示,注释是一种强大的视觉引导工具:

  • 注释显著增强了数据模式的显著性,能有效引导观众关注设计者希望强调的内容并做出一致性决策。
  • 相比之下,高亮和重新着色的效果较弱,难以显著影响观众的模式感知或决策。

4.3 设计对决策的影响

实验结果强调可视化设计选择对数据解读和决策的关键作用:

  • 注释通过直接指示显著特征,可显著影响观众的认知焦点和结论。
  • 设计者在数据可视化中持有很大的“叙事权力”,可以通过突出某些模式影响观众的解读和判断。!

5. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh
安装最新版 lianxh 命令:
ssc install lianxh, replace

  • 万莉, 2021, Stata 绘图:世行可视化案例-条形图-密度函数图-地图-断点回归图-散点图, 连享会 No.560.
  • 万莉, 2021, Stata 绘图:回归系数可视化-论文更出彩, 连享会 No.564.
  • 保瑞, 2021, Stata 绘图-组间差异可视化:不良事件火山图、点阵图, 连享会 No.675.
  • 刘东, 2024, Stata:手动计算置信区间, 连享会 No.1498.
  • 刘亮, 2020, Stata: 约翰霍普金斯大学 COVID-19 疫情数据处理及可视化, 连享会 No.107.
  • 刘杨, 连玉君, 2020, Stata 可视化:让他看懂我的结果!coefplot-arrowplot, 连享会 No.45.
  • 刘聪聪, 陈点点, 2020, Stata:interflex-交乘项该这么分析!, 连享会 No.121.
  • 初虹, 2023, 值得收藏!三个 Stata 可视化绘图网站, 连享会 No.1220.
  • 吴小齐, 2024, Stata 绘图:高级柱状图(二)-离散变量之间关系的可视化, 连享会 No.1469.
  • 周豪波, 2020, Python 调用 API 爬取百度 POI 数据小贴士——坐标转换、数据清洗与 ArcGIS 可视化, 连享会 No.20.
  • 孙晓艺, 2024, Stata 绘图:世行研究员团队的可视化手册, 连享会 No.1437.
  • 孙晓艺, 2024, Stata 绘图大礼包:27 个常用的可视化范例及代码, 连享会 No.1372.
  • 孙法融, 2023, VOSviewer:文献分析软件介绍, 连享会 No.1267.
  • 孙碧洋, 2020, Stata 绘图:随机推断中的系数可视化, 连享会 No.471.
  • 左祥太, 2021, Stata 可视化:biplot 一图看尽方差、相关性和主成分, 连享会 No.814.
  • 张弛, 2024, Stata 绘图:用 geoplot 绘制中国地图, 连享会 No.1401.
  • 张蛟蛟, 2022, Stata 绘图-可视化:组间差异比较散点图, 连享会 No.897.
  • 彭甲超, 2021, Stata:边际处理效应及其可视化-mtefe-T309, 连享会 No.128.
  • 李原, 2024, Stata 绘图:漏斗图-组间绩效比较可视化-funnelinst, 连享会 No.1373.
  • 李胜胜, 2023, Stata 绘图:balanceplot-系数可视化之平衡性点图, 连享会 No.1252.
  • 李胜胜, 2023, Stata 绘图:绘图模板介绍-cleanplot, 连享会 No.1173.
  • 杨学敏, 2021, 知乎热议:有哪些一用就爱上的可视化工具?, 连享会 No.664.
  • 林友晖, 2023, Stata 绘图:相关系数可视化, 连享会 No.1205.
  • 王卓, 2024, Stata 绘图:政治关联可视化, 连享会 No.1428.
  • 王卓, 2024, Stata 绘图:政治关联可视化-B612, 连享会 No.1427.
  • 王胜文, 2022, Stata 绘图:COVID-19 数据可视化, 连享会 No.1099.
  • 籍保龙, 2024, Stata 教程:绘图和可视化, 连享会 No.1388.
  • 肖蕊, 2022, Stata 可视化:能用图形就不用表格, 连享会 No.977.
  • 袁子晴, 2021, forest-森林图:分组回归系数可视化, 连享会 No.651.
  • 谢佳松, 2022, Stata 绘图:回归系数可视化-multicoefplot, 连享会 No.956.
  • 连享会, 2022, 连享会主页-推文列表-按时间, 连享会 No.449.
  • 连享会, 2022, 连享会主页-推文列表-按类别, 连享会 No.448.
  • 连享会, 2024, 连享会公开课:实证分析可视化——6 月 30 日-免费参与, 连享会 No.1411.
  • 连玉君, 2020, Stata:在线可视化模拟-OLS-的性质, 连享会 No.384.
  • 连玉君, 许梦洁, 2020, Stata:系数为何不显著?GIF 演示 OLS 的性质.md, 连享会 No.402.
  • 邓浩然, 2020, Stata:图示交互效应-调节效应, 连享会 No.383.
  • 陈佳慧, 2023, Stata 绘图:mrtab-mrgraph-多元响应变量列表呈现和可视化, 连享会 No.1285.
  • 陈佳慧, 2024, dgraph-组间均值差异 t 检验:列表及可视化, 连享会 No.1367.
  • 陈卓然, 2023, JF 论文复现:金融学术圈的女性们, 连享会 No.1302.
  • 陈卓然, 2023, Python 金融分析系列-2:数据可视化, 连享会 No.1295.
  • 陈卓然, 2023, 可重复研究:基于 SCons 构造文档结构和可视化图形-statacons, 连享会 No.1307.
  • 雷诺, 2023, Stata 绘图:confcomptwp-二维系数的置信区间和可比区间可视化, 连享会 No.1257.
  • 雷诺, 2023, Stata:二维估计的可视化-confcomptwo, 连享会 No.1305.
  • 韩杰, 2022, Stata 绘图:面板数据可视化-panelview, 连享会 No.1035.
  • 马洪栋, 2024, Stata 绘图:高级柱状图(一)-均值和置信区间-cibar-coefpl, 连享会 No.1379.
  • 高娜娜, 2020, 数据可视化:带孩子们边玩边学吧, 连享会 No.426.
  • 高瑜, 2024, eventbaseline:事件研究的估算与可视化, 连享会 No.1486.
  • 高瑜, 2024, 新书推荐:可复现数据科学及 Python 应用, 连享会 No.1485.    

尊敬的老师 / 亲爱的同学们:

连享会致力于不断优化和丰富课程内容,以确保每位学员都能获得最有价值的学习体验。为了更精准地满足您的学习需求,我们诚挚地邀请您参与到我们的课程规划中来。 请您在下面的问卷中,分享您 感兴趣的学习主题或您希望深入了解的知识领域 。您的每一条建议都是我们宝贵的资源,将直接影响到我们课程的改进和创新。 我们期待您的反馈,因为您的参与和支持是我们不断前进的动力。感谢您抽出宝贵时间,与我们共同塑造更加精彩的学习旅程!https://www.wjx.cn/vm/YgPfdsJ.aspx# 再次感谢大家宝贵的意见!

New! Stata 搜索神器:lianxhsongbl  GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
. ssc install lianxh
. ssc install songbl
👉  使用:
. lianxh DID 倍分法
. songbl all

🍏 关于我们

  • 连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。

连享会
连玉君老师团队分享,主页:lianxh.cn。白话计量,代码实操;学术路上,与君同行。
 最新文章