7月12日上午,第十五期北京大学可视化发展前沿研究生暑期学校系列线下课程中,华为软件创新实验室张宇老师为同学们带来了专题讲座:历史可视化与标注利用。
数据可视化历史
背景: 前计算机时代的数据可视化
讲座一开始,张宇老师介绍了几幅经典的前计算机时代的可视化作品作为引子,包括John Snow的霍乱地图、Charles Minard的拿破仑东征图、William Playfair的小麦价格和工资图、Jacques Bertillon的专题地图。这些作品至今仍是可视化工作者学习的对象。
张宇老师由此引出了以下问题:有多少前计算机时代的可视化流传至今?历史上的可视化使用过哪些设计?我们可以如何利用前计算机时代的可视化?这一次讲座将依次回答这三个问题。
背景:前计算机时代的数据可视化
有多少前计算机时代的可视化流传至今
想要弄清这个问题需要明确前计算机时代可视化作品的数据收集方法。张老师首先排除了图片搜索引擎,因为这类来源缺乏元数据,收集到的数据还需要去重。更合理的办法是从各类数字图书馆提取图片,方便获得书目信息、图片文件属性和版权信息等元数据。他从中提取了37万张电子图书馆中的图像及相应元数据。而后人工对这些图片进行标注,用VGG-16行文本/地图/可视化检测,筛选出34.5万余张图像的标签 。进行标注质检与纠错后,按出版日期过滤可视化图像,最后得到了1.3万张前计算机时代的可视化图像及相应元数据。这一步研究的成果以线上画廊(https://github.com/oldvis/gallery)的形式呈现。
OldVis项目软件栈
OldVis项目标注系统
线上画廊
历史上的可视化使用过哪些设计?
张宇老师在上一步研究的基础上,用设计方法对前计算机时代的可视化作品进行了层次分类。这一步研究需要利用VisTaxa对图片标签进行大量编码工作,包括创建和编辑分类、解决结构冲突、修改标签以及解决标签冲突的一套完整流程。在进行这一步研究时,包括张老师在内的3个编码者一起工作,每次迭代中编码100张图片,最后建立了51个分类单元。
VisTaxa系统
我们可以如何利用前计算机时代的可视化?
首先,收集前计算机时代的可视化作品可以作为二次设计的灵感来源,比如现代工作者可以在旧有作品上增加交互和提升扩展性。
其次,还可以进行一些衍生研究,比如回答这两个问题:谁是最高产的作者?高产的作者为什么高产?张老师发现前计算机时代的高产工作者往往是政府的1统计工作者,他们具有时间、数据和出版等方面的便利。
再次,这些前计算机时代的作品还可以用来提取历史数据,比如从John Snow的霍乱地图中可以提取出伦敦瘟疫的史料。
复次,历史图像往往不是孤立存在的,而是有前后继承的谱系,收集工作有利于图像的版本研究。
总结
张宇老师的研究不仅对于理解可视化工作的前史和经验积累有重要意义,也对历史研究者搜集史料提供了便利。本次讲座详细拆解了这一研究的过程和工具,对于同学们进行自己的研究具有方法论和研究逻辑上的借鉴意义。
欢迎大家关注北京大学可视分析微信公众号(VisualAnalytics)
获取最新消息