引言
苏轼作为唐宋八大家中著名人物,家喻户晓,在古今中外均广受好评,宋神宗曾评价“李白只有苏轼之学问而无苏轼之才能”。在文化方面,苏轼在诗词上取得了开拓性的进展,对词体进行了全面改革,在理论上破除了诗尊词卑的观念,扩大了内容与题材,开拓了词的境界与领域,是中国诗词领域不可忽视的丰碑。在精神方面,苏轼有着波澜起伏的人生阅历,三起三落而泰然自若,这种豁达的精神不断感染着后人,在精神境界与审美品味上同样高山仰止,因此对于苏轼在诗词领域的审美研究,具有十分重要的代表意义,可以从一定程度上了解我国古代的审美品味。
在前期的调研过程中,我们发现当下基于诗词的轨迹空间,以及意向相关性研究较为丰富,但是绝大多数内容仍然是面向专业研究学者的数据可视化,其数据内容准确翔实,但理解难度颇高,阅读需要较强的数据理解能力以及相应知识背景。
本项目的设计目标是基于对苏轼诗词的理解,运用视觉叙事逻辑选取苏轼诗词中竹这一意向进行重构,进行面向大众的可视化设计,目的是为了以较低的门槛,更好的帮助大众理解苏轼诗词。
数据收集与整理
数据收集部分:
1.收集苏轼全部的诗词,共计3460首;
2.处理文本格式,为数据清理和筛选做准备,为txt与json格式,
3.通过“竹”字进行筛选诗词,并去掉竹杖等竹制品作为初步筛选结果
4.查询诗词的写作地点、情感以及意向,并进一步筛选诗词(去掉竹制品与重复的诗 词),最后留下127首诗词。
5.最后诗词的维度有创作时间与地点、在场行(是否看到竹子)、写作季节、天气、场景(人造/自然)、日夜。
数据处理部分:
1.地理信息可视化
地理信息的可视化主要涉及底图处理、古今地名映射、地点和轨迹空间沦落为和路线动画生成4部分。
首先是根据前人研究,从哈佛大学Hartwell数据集中下载1080年的中国历史地图,经过提取北宋范围矢量、GISpro投影WGS84坐标系,得到苏东坡年代的研究底图。
其次从苏轼年谱、诗词地名映射网站等地挖掘每一首苏轼诗词对应的时间地点信息,最后通过坐标拾取器爬取到地点对应的经纬度信息。
然后通过geopandas等工具包生成地点的地理信息矢量文件,按时间顺序建立起前一首诗词和下一首诗词的创作地点的数据对,得到轨迹起点-终点数据集,生成轨迹文件。最后根据数据的时间属性,在gispro中完成轨迹动画生成。
2.诗词内容数据处理:
诗词数据处理的第一个难点在于分词,通过初步处理测试评估整体分词效果,认为:HanLP>甲言 >THULAC,进一步进行实践后选用:HanLP 作为处理模型。其次从中挑选词频最高的植物:竹 随后清洗数据,剔除具有歧义的词,如丝竹、竹轩、竹鞋、竹杖等 ,最后保留得到诗词集中描写竹的部分,并获取每首诗的创作地点和创作时间
3.情感倾向分析数据处理:
通过百度Senta情感分析系统实现与竹相关的诗词的情感倾向二元分类(积极/消极),最后辅以人工抽检纠正。选择加载的预训练模型是双向长短记忆网络,其特点是能够提取语句中词语顺序相关信息,考虑词与词之间较长的上下文依赖 。从5个维度分析与竹相关的景象:表现手法、气象、季节、景观类型、时间。
5.机器匹配部分建立相应词库
表现手法划分标准:虚写/实写 方式:人工标注
景观类型划分标准:人造景观/自然景观 方式:人工标注
季节划分标准:春、夏、秋、冬 方式:人工标注
气象划分标准:晴、雨、风、雪、霜等 方式:机器匹配
时间划分标准:昼、夜 方式:机器匹配
可视化设计
根据小组其他成员整理/分类得到的关于苏轼诗词中“竹”的元素与创作情感/创作场景/创作时间展开视觉化设计,并拟定本组可视化呈现的主题“寻迹苏轼笔下的那片竹林——苏轼咏竹诗词可视化”。在视觉设计过程中,以“竹”的形态(高低/茂密/间距)来表现苏轼创作时的情感流露与一生的三起三落,并在交互设计的页面中呈现诗词原文、年代、在场性、季节、气象与日夜等信息。
苏轼诗词中有关“竹”的量化标准
项目主视图
交互详情页
项目海报
结语
本次项目是一次对于数据可视化与艺术结合的尝试,其目的在于探索将专业数据内容以更简便的方式让大众理解,感受信息技术以及复杂知识的魅力,下一步,本组将继续对其设计方案进行打磨,设计出有意境的可视化作品。
小组成员:郗家禾 北京大学,马继凯 阿里云智能集团,刘梦超 信息工程大学,向歌越 华南理工大学,蔡载胜 武汉设计工程学院
指导老师:袁晓如 北京大学、徐瑞鸽 雪城大学
暑期学校优秀课程设计将陆续收录在可视化看中国网页:
https://vis.pku.edu.cn/vis4china
暑期学校网页:
https://chinavis.org/s24