历史学数字资源利用的误区及其应对
题记:在面对海量数据及资源的情况下,研究者在利用历史学数字资源的过程中遭遇的误区也逐渐显现出来。首先,“穷尽”史料变得更加艰难,而非更加容易。其次,研究者预先设定的思路往往成为搜索和筛选数据的藩篱而不自知。第三,数字资源更需要辨析,而且与传统史料相比更加困难。第四,数据库本身的“缺陷”使得研究者无意识地走进误区。
在面对海量数据及资源的情况下,研究者在利用历史学数字资源的过程中遭遇的误区也逐渐显现出来。首先,“穷尽”史料变得更加艰难,而非更加容易。其次,研究者预先设定的思路往往成为搜索和筛选数据的藩篱而不自知。第三,数字资源更需要辨析,而且与传统史料相比更加困难。第四,数据库本身的“缺陷”使得研究者无意识地走进误区。在历史学数字资源的利用已成史学研究必然趋势的情况下,如何有效避免诸多误区,使其优势发挥到最大化,成为亟待解决的问题。
误区一:“穷尽”史料变得更加容易。表面上看,大数据时代飞速增长的历史学数字资源为研究者“穷尽”史料提供了更多的机会与可能,而事实上,“穷尽”史料变得更加艰难。
按照传统史学训练,选择好某一课题之后,研究者通常会借助图书馆的论著索引、目录等工具书,找到该领域的重要数据目录,再通过图书馆或档案馆获取这些数据,亦可实地考察调研以获取更多新材料。但在历史学数字资源极为丰富的大数据时代,研究者在选好题目之后,更多地选择通过“读秀”“中国知网”“中国国家图书馆文津搜索”等在线资料平台搜索相关中文论著,通过“美国国会图书馆”“大英图书馆”、JSTOR等处搜寻国外相关研究论著,还需要根据课题所涉时段及领域寻找更为细化的数字资源。
以鸦片战争为例,除了以上查找资源的常规方式之外,可以利用的在线全文数字资源还有许多。比如“晚清民国期刊全文数据库”“大成老旧期刊全文数据库”,中国国家图书馆的“民国图书”“民国期刊”“民国法律”等特色资源数据库可以检索并阅读晚清民国的图书、期刊等论著全文;中国国家图书馆的“民国报纸”“近现代中国英文报纸库”(ProQuest Historical Newspapers: Chinese Newspapers Collection 1832—1953)、“爱如生数据库”中的中国近代报刊库和《申报》数据库等,可查询相关中英文报纸;“台湾中研院近代史研究所档案馆馆藏检索系统”中可以查找晚清外交部门及经济部门的档案及地图的原件;另外,还有Gale公司开发的诸多数据库,如“Gale虚拟参考书图书馆”(Gale Virtual Reference Library)、“十九世纪作品在线”(Nineteenth Century Collections Online)等,可以检索到国外学者的相关研究论著。
以上是较易想到的相关数据库,一般可以通过各大图书馆的链接轻松获取,但也会有一些意想不到的数字资源,如载体语言多样、资源种类丰富的“欧盟数字图书馆”(Europeana Collections)和著名学府麻省理工学院(MIT)的“可视化文化”(Visualizing Cultures)中亦有大量与广东贸易体系、圆明园、第一次鸦片战争、日本人眼中的鸦片战争等相关的原始画像或照片;“Bibliotheca Sinica 2.0”则是以奥地利国家图书馆和维也纳大学图书馆为基础建立的网站,网站名称与著名法国汉学家亨利·高迪爱(Henri Cordier,1849—1925)的皇皇巨著《西人论中国书目》的书名Bibliotheca Sinica刚好一样,堪称其“网络升级版”。此网站可以检索到1939年以前出版的国际汉学界对某个中国问题的相关研究成果的数字化全文连结,亦可找到与英国东印度公司等相关的资源。
由此可见,历史学数字资源存在不可否认的突出优势,其一是资源数量十分庞大,居于世界各地的资源唾手可得;其二则是资源的种类极为丰富,既有传统的文字形式的文献,亦有图片、音频、视频及博物馆所藏实物的3D甚至全息展示等崭新形式的历史学资源。与此同时,数字资源的劣势亦十分明显,首当其冲的便是资源分布相当零散;其次是所用语言亦多种多样,英、法、德、意、日、俄等国语言都有;其三是征引不便,网页地址的不确定性和非永久性无法保障始终能够成功打开该网页;其四是不同数字资源之间互不连通,需要花费大量精力搜寻和整合,大量数字资源的挖掘无疑增加了研究者处理数据的工作量;最后是重复性,同类但分属不同网站的资源存在相当数量的重复资源,如“中国知网”“维普网”“万方数据知识服务平台”等都提供中文期刊的检索与全文下载,但利用不同平台输入同样的检索词,所得到检索结果的数量则是不同的,其中必然存在重复的条目,如果采用人工筛选难度颇大。以上这些劣势都给学者检索和利用数字资源带来不少障碍,大大增加了学术检索和整合史料的工作量。
与此相应,要想在网络时代尽可能地“穷尽”史料,还是有一些应对方法的,而这些也多是对研究者提出的新要求。首先是语言关,不需学习多门语言(当然能够掌握多语言更佳,而且这也是未来学术研究的趋势),但一定要尽力掌握多门语言的检索常用词,以适应不同语言环境的资源网站,尤其是那些不提供英文版网页的网站;其次,要熟知各大网络数据库及其他各类有可能提供数字资源的网站,进而还需对新数字资源的建设和上线实时保持关注,以维持自身掌握数字资源的广度;再次,所有在线和线下检索到的史料之间必定会存在重复的内容,学者还需自行筛除那些重复的部分,更好的方式是学习并利用一些软件来自动识别和筛选,以减轻研究者人工处理文献的工作量,如Reference Manager、Note Express和EndNote,把这些自然科学工作者早已熟悉并使用的常用参考文献管理软件应用在历史学研究中。
误区二:借助丰富的数据资源及其附带的各项细致的检索条目,能够最大限度地查找到与研究课题相关的史料。实际情况则是研究者预先设定的思路往往成为搜寻和筛选数据的藩篱而不自知。囿于研究者自身对各种数据资源的掌握程度及检索方式的不同,其筛选的原则是否能够最大限度地获取与课题相关的数据直接关系着其“穷尽”史料的广度与深度。
一般而言,各大数据库及网站在提供海量资源的同时,亦会具备多重检索功能,可使检索更迅速准确,从中搜索与研究者既定课题相关的史料似乎唾手可得。但细想之下不难发现,连结到哪些资源网站及数据库、输入何种检索词、具体添加哪些二次甚至多次检索条件,这些直接影响史料获取的重要环节都掌握在研究者本人手中,整个过程中主观性和偶然性无疑占据重要地位。不难见到这样的景象,同样的课题使用相同的数据库,却由于输入的检索词、添加的二次检索条件不同,一人检索到的史料,另一人却完全没有发现,反之亦然。抑或,一人非常熟悉的数据库,另一人从来没有听说过,更没有使用过。显而易见,即便选择完全相同的研究课题,独立的两位研究者最终获取的史料范围及内容也不会一致。
这些除了可以通过学习和提高检索技巧来解决的技术性问题,最关键的则是每位研究者解决问题思路的差异。研究思路无疑包含着每位研究者的学术个性,但也恰恰是这种根本性的差异造就了研究者检索资源时不自知而设立的藩篱,将自身束缚在某种限定的学术思维模式内,很难“跳出盒子”去想问题。当然,类似的情况在传统史学研究中就已经存在,只是在大数据时代仍然延续下来而已。
想要突破以上技术性或研究思路上的壁垒,需要几方面分工合作、协同努力。首先,各数据库之间需要积极建立友好联系并体现在数据库首页友情链接上,以方便使用者找到更多同类的数据库,打破数字资源分散的屏障;其次,各国的国家图书馆应积极担当整合各类网络资源的角色,并主动与其他国家的类似机构合作,积极推广学术性数字资源;再次,各类专门的学术检索网站在获得资源提供方许可的前提下,尽可能地整合各类史学数字资源;最后,研究者自身亦需积极获取各类数字资源的信息、学习有效利用各类数字资源的检索技巧,并努力开拓研究视野,积极寻求解决问题的多样化途径。
误区三:以图像化方式制作的史学数字资源相当于直接看到原始史料,故可不加辨析地使用。而事实却是数据资源更需要辨析,且与传统史料相比更加困难。以前学者仅需要核对原文,如今除了在数据资源基础上核对纸本原文之外,还需对那些无法获得纸本的档案和图片资源进行审慎地辨认、句读以及数据源的考证。由于网络学术资源数字化的对象是分布在世界各地图书馆及档案馆的著作、论文、档案、照片、音讯、视频等史料,其中绝大部分是研究者无法亲眼目睹去求证的,在这种情况下,逐一核对所有原始文献就成了几乎不可能完成的任务。
以上提到的几种史料类别中,第一类,是完全图像化制作而非使用提取文字方式制作出来的电子版著作,其准确度是最高的。由于以图像方式存储,即便平台上人工输入的出版信息有误,只要研究者认真查看出版页的图像,自然可以得到准确的出版信息。事实上,在“读秀”上搜索图书,时常会出现系统录入的出版信息与图书本身的出版信息不一致的情况,需要仔细核实。如英国学者蓝诗玲所著《鸦片战争》一书,“读秀”系统录入的出版时间是2015年6月,而出版页则显示是2015年7月,类似的例子还有许多。
第二类,图像化的电子版论文。如果刊载论文的期刊每页或每奇数(或偶数)页上方在出版时就已经印刷有期刊的名称、期数、出版时间的话,则可以直接相信,但此类情况在过刊中尤其罕见,在现今的刊物中已有部分期刊采取类似详细标注的方法,方便使用者查询论文来源。如果刊载论文的单页上并无详细的当期刊物出版信息,则除非能够看到纸本的期刊,否则仅仅依据数字资源制作者的标注是无法完全确信其来源的。现在国外不少电子期刊平台上下载的论文都被系统加上首页,上面注明论文的出处及平台的信息,如JSTOR,但究竟有无错漏还是无法单凭平台系统人为录入的信息就能最终确认。在实际研究中,经常会出现不同资料平台上的相同论文被误标为不同年代及期数,若无纸本期刊来验证,则无法真相大白,而错误的期刊来源借助知名学者偶有疏漏造成的以讹传讹也会使错误引用的情况持续恶化。
第三类,档案。如前所述,如果是图像化的档案,且档案首页注明卷宗详细信息的自然可信,如台湾中研院近代史档案馆就可以在线阅览大量源文件的高清图像,每份档案的首页上清晰地显示了详细的档案号,和研究者亲自到档案馆见到的别无二致。若档案首页并无详细明确标示,只是数据平台在数字化过程中人为加上的标注,则仍需查阅档案原件才可确信。
第四类,照片。这是诸多史料中辨识度最低、核实来源最困难的一种。由于照片这种载体本身就是以单张形式出现且绝大多数无详细信息的,偶见标注也很难十分详尽,故在利用照片作为史料时需要谨慎再谨慎。遇到照片本身(一般在上下端或四角处)印有文字说明的是最幸运的情况,基本可以相信;如果是从图书中摘取的照片,出版时在照片一旁标注有详细信息的或者遇到照片单张背面有详细说明的,至少有线索可查,可以佐之以旁证;倘若遇到照片上无任何信息的则基本上很难作为可信史料来使用,即便想要核查也很难找到头绪。
显而易见,研究者使用数字资源必须有所辨析,决不能拿来就用。判断史学数字资源出处信息准确与否有一个简单的判定标准,这个关键点就是究竟由谁来标注具体出处信息。如果是图像化制作的资源本身,可以视同亲眼见到原文,无疑可以判定为可信。但实际上研究者更常遇到的情况是由数据库、网页等各平台的建立者及维护者后期人为添加的出处信息,这时,传统的史料辨析方法就可大显身手,寻找蛛丝马迹考证其来源。
误区四:近年来,逐渐有些数据库不仅提供史料本身,还在其平台的海量资料基础上开发了多种统计工具,其提供的数据分析能够在短时间内迅速完成一位学者甚至一批学者花费数年才能完成的任务。乍看起来,这些操作简便的数据分析十分具有诱惑力,似乎史学工作者的任务已经可以部分地由程序高效地完成,可以大大减少研究者的工作量。暂且撇开量化处理数据更适合灾害史等部分史学研究领域不谈,任何数据库或多或少都存在“缺陷”,正是这种“缺陷”使得研究者无意识地踏入误区。任何数据库均有其统计及收集资源的标准,对这些标准的了解和分析将成为研究者利用数据前的必经之路,否则难免不自知地步入误区。
目前所见网络上的数据资源中有些是由固定化的专人操作,有些则完全开放,可以由网络上任意一人补充和修改,个别网站还会保留每次改动的日志并公开化。其中第一类由于有专业人员长期维护,有大量资金与专家投入,其可信性自然相对较高。但即便如此,任何数据库的建立都是依据设立好的计划和标准一步步实施的,收集哪些材料、如何分类、依据什么标准收集并统计资料,这些都有相应的标准。这些详细的标准为数据库的建立和维护提供了基本指导,是必不可缺的。但换个角度来看,恰恰是这些标准限定了数据库自身。标准的制定是否科学,是否能够始终贯彻如一,尤其是数据库或网站提供基于自身资料的分类分析统计时,统计的范围、标准、分类都会影响统计的结果。在这个意义上,数据库及其搭载的分析程序的诸多标准也就转化为其自身难以消弭的“缺陷”,如果仅依靠数据库自身这种含有“缺陷”的统计和分析,研究者未加辨别就相信,则必将带来研究成果及结论的片面性。
这些有“缺陷”的数据资源主要体现于那些不仅提供数据本身,还提供依照一定关键词进行数据库内相关数据的统计和分析的数据库,而这一切都是由预先设计好的计算机程序来完成,与检索条件精确匹配,但缺乏人的主观判断,其统计标准亦难判定是否科学及完善,因而其分析的结果尚需商榷。如“万方数据知识服务平台”的“知识脉络分析”提供知识脉络的检索及对一些检索词进行比较分析的曲线图,依据的正是万方资料自身收录的期刊论文。这固然是其优势,同时也恰恰构成其劣势,毕竟有些论文是万方没有收录而事实上存在的相关论文,在其他数据平台如“中国知网”或“维普网”上是完全可以检索到的。故而,万方知识脉络分析存在的漏洞自然使其分析的可信度降低,在此基础上的分析固然可以看出模糊的趋势,但却无法直接提供令人信服的分析结果。
再如由北京大学中国古代史研究中心、哈佛大学费正清中国研究中心和台湾中研院历史语言研究所共同主持的“中国历代人物传记数据库”(CBDB)项目是一个典型的关系型数据库,国内外已经出现学者利用该数据库进行研究并公开发表论文,其可视化的分析图表十分引人注目。如笔者所见CBDB宣传PPT中展示的唐代男性获得刺史和九卿职位的年龄曲线图、宋代进士的籍贯在地图上的定位图、唐代大族和北宋进士籍贯的对比图,等等。通过图示可以得到更清晰更直观的印象,但必须时刻谨记这些图表都是基于一个现实基础的,那就是目前为止CBDB收录的资料。而目前此数据库仍处于不断完善的过程中,其中如按照朝代看,收录人数最多的是明代,共计16万余人,占被收录总人数的近一半。虽然至2016年4月,CBDB已经收录了37万余人,但仍有大量人物尚未被收录其中。依赖这种“未完成”或者正处于“进行时”的数据基础所做出的分析,相应地说服力亦十分有限。
既然任何数据平台都自有其标准,而这些标准恰恰导致其产生“缺陷”,如此推论,没有“缺陷”的数据平台是不存在的。那么利用数据库本身提供的数据统计和分析是否仍然可行呢?答案是肯定的,但首先,需要各数据库能够公开其详尽的收录、分类、统计、分析资料的标准,以资参考;其次,研究者在利用计算机程序做出的数据分析之前,必须先行阅读该数据库的各项标准,综合不同数据库的统计分析,结合传统方法,得出自己的统计范围、内容和分析结果。简言之,对任何资料平台统计分析结果的利用仅能停留在参考资源之一的定位上,不可轻易尽信之。只有这样,才能既充分利用现有各类数据库开发的检索和统计工具,同时亦能规避这些数据库本身的设定可能为研究者带来的错误判断。
随着云计算等技术的成熟,大数据分析在许多领域已经成为最佳分析甚至预测的利器。可以预见,在不远的未来,历史学科必将会受到巨大的冲击,也许史学研究的形态也会相应产生难以预计的巨变。但这些新技术究竟以何种形式更有效地应用于历史研究,仍需经历长期磨合。在此过程中,本文所及诸多误区如能提前预见,并采取可行性较高的措施有效避免和克服,则历史学数字资源对史料运用与史学研究的贡献才会最大化,反之,则将弊大于利。
作者:胡优静,河南大学历史文化学院副教授
来源:《史学月刊》2017年第五期
编发:东方 / 三束光
现代大学网
守护大学精神
westudying.com
iuniversity@qq.com
版权说明
为著作权人的作品提供网络推广服务,以提升其价值影响力。部分信息选录自相关书刊或网站,如有异议请发电邮洽商处理。▲