人工智能时代的文学档案

文摘 2024-07-04 15:00 北京

原文作者

原文发表于Gale Review Blog

Heather Colley，英国牛津大学英国文学专业博士研究生

技术发展的历史与文化批评的历史密不可分，后者总是在质疑每项技术的应用与后果。瓦尔特·本雅明（Walter Benjamin）可能是技术批评界最重要、最常出现的人物之一。而在人工智能的时代，他的经典巨著《机械复制时代的艺术作品》（The Work of Art in the Age of Mechanical Reproduction）¹ 中的一些思想为我们提供了很有用的视角，去观察对艺术、真实性、批评和“机械复制”之间关系早已存在且不断加剧的担忧。

原创和复制

对本雅明而言，机械复制指的是电影和摄影。在他写作的时代，这些媒介代表着艺术实践和艺术商品化之间前所未有的断裂，原创作品和复制品，创作的仪式和创作的展示。本雅明审视原创作品和复制品之间的分歧，以及接下来的复制品的复制品，以此类推，阐述了在大众消费的现代主义时期新的艺术和表达模式。

现在，这种对电影和摄影的理论听起来有些过时。但人工智能的扩张及其在人文批评与学术研究中的作用与本雅明对创作有意义内容的担心相呼应。“原创作品的存在，”他写道，“是真实性概念的先决条件。”这句话也适用于这个史无前例、机器生成文章和分析的时代。在这个时代中，来源文献资料和实体档案对学术诚信和学术批评比以往更加重要。

博物馆观众在拍摄画作的照片。Wikimedia Commons. https://commons.wikimedia.org/wiki/File:WLANL_-E_V_E-_Museumzaal_Van_Gogh_Museum.jpg

机器生成信息与人文学科

在一个机器生成信息唾手可得的环境中，用诺姆·乔姆斯基（Noam Chomsky）、伊恩·罗伯茨（Ian Roberts）和杰弗里·沃图穆尔（Jeffrey Wattumull）三位博士的尖锐言辞来说，大部分的这些信息都是“小说一样的”——真正的学术诚信和辩察力越来越扎根在来源文献中。而开放获取人工智能（例如ChatGPT或Google Bard这样的模式）在人文领域的批评和学术研究中的问题在于它更依赖于记忆。

机器生成知识系统记忆并计算，相比乔姆斯基、罗伯茨和沃图穆尔基于大量信息的预测和推测，它们无法提供创意性的批评或解释因果机制。它们缺乏自我意识感觉，而这是纠正错误的先决条件，是理性思维的必要条件。在学术思考中，理性是以论证推理为基础的，而论证推理根源于创造性的且常常是解释性的批评，自我纠正的过程在其中必不可少。

如乔姆斯基等人在最近的一篇《纽约时报》文章²中所描述的，在这个“野蛮纠正数据点之间相互关系”的无自我意识的世界中，档案成为了一项极为重要的必需品。在回避对实体文献资料的尊重时，一种信息或错误信息能力出现了，并在似乎无边无际的开放获取内容世界中逐渐发展壮大并使自己正当化。实体档案可以帮助纠正光学字符识别（OCR）计算文本挖掘中的错误，这些错误在挖掘多语言文本、不同字体文本或存在例如页面损坏或墨水污渍等问题的古旧档案时，特别容易造成不准确。

Gale“美国小说，1774-1920年”（American Fiction, 1774-1920）中一份文献及其OCR的截图。

Alcott, L. M. (1889). A Modern Mephistopheles, and a Whisper in the Dark: By Louisa M. Alcott …. Roberts Brothers. https://link.gale.com/apps/doc/YDMFFG700275631/AMFN?u=webdemo&sid=bookmark-AMFN&xid=8b9a42a3&pg=3

数字化在当代的应用

当然，机器生成知识的完整性取决于我们向其中输入的知识是否完整。档案调研和重新调研常常会改变我们对文学史和文化的理解。数字人文——广义上数字化和人文研究相交叉的学术运动——在一定程度上是关于远程和数字访问的。但数字化重要文献资料的速度——以及更进一步，数字化档案资料向机器数据知识的转化——还不能跟上人类档案工作的步伐。

早些时候，一位研究者结合使用数字档案和实体档案，发现了大约12部路易莎·梅·奥尔科特（Louisa May Alcott）的著作，之前它们并没有被认定是这位美国女作家所著。因为奥尔科特创作过各种题材的作品，使用过多个笔名——她的名作《小妇人》几乎不能代表她的全部文学作品，实际上她的作品跨越哥特式小说、惊悚小说和成年复仇奇幻小说等——这个发掘她作品集的项目是复杂且离散的。

Max Chapnick的研究发现是数字人文与实体档案之间关系的典型代表。Chapnick的寻找之旅始于他发现了一本以笔名署名的小说，他怀疑是奥尔科特所写。美国古文物学会（AAS）和波士顿公共图书馆的大型数字典藏让他能够找到某些文字与奥尔科特写作风格和个人生活之间的关联。但数字化过程中的一个早期的错误阻碍了他对此的确认：“他最初检索的是I.H.Gould，因为《魅影》（The Phantom）一书的数字化版本在书页上有一道褶皱，盖住了第一个大写字母，” Cody Mello-Klein在他们有关这一研究发现的文章³中写道。“幸运的是，AAS的图书与数字馆藏主管Elizabeth Pope找到了原始的文献，确认了作者的姓名是E.H.Gould。”

路易莎·梅·奥尔科特。Wikimedia Commons. https://commons.wikimedia.org/wiki/File:Houghton_FHM_MS_Am_2242_-_Louisa_May_Alcott.jpg

机器与档案

数字化的人工过程是易于发生错误的，在上述情况下，它影响了我们对一代文豪、她的创意写作、她的作品出版的理解。但对实体档案的保存也意味着这样的错误是可以自我纠正的，我们可以弥补我们不可避免的错误，而我们的自我修正也有助于给出合理的人文解释。但机器与档案之间的分歧依然存在。什么时候、以怎样的方式，机器生成的知识将能够结合这种基于档案的、围绕一位重要美国作家的假定？未能及时整合奥尔柯特写了《魅影》（女性主义者对狄更斯《圣诞颂歌》的看法）这部作品，将会怎样影响ChatGPT照搬的有关这位作家的哪些知识？

实体档案的重要性

为了更好地理解和情景化原本的档案、复制的数字档案和人工智能机器化知识之间的差异，我们可以将自己围绕实体档案重新定位，为学术和研究诚信而尊重它。或者，再次引用本雅明的话，我们可以更好地预防机器化的知识压到档案，因为要“撬开一个物体的外壳，毁掉它的光环”，在我们所处的情景下可能意味着错误地允许人工知识让自己正当化，超过源于档案的、自我纠正的且合理的解释。

参考文献

Benjamin, Walter. The Work of Art in the Age of Its Technological Reproducibility, and Other Writings on Media. London, The Belknap Press of Harvard University Press, 2008.
https://www.nytimes.com/2023/03/08/opinion/noam-chomsky-chatgpt-ai.html
https://news.northeastern.edu/2023/11/08/louisa-may-alcott-new-pseudonym/

封面图片：Rise of the machines. (May 9th-15th 2015). Economist, 19+. https://link.gale.com/apps/doc/OXUCSW340676990/ECON?u=webdemo&sid=bookmark-ECON&xid=67c25641

欢迎关注：

Gale官方微信公众号及视频号：

联系我们

识别二维码填写您的联系信息和问题

或发送邮件至：

GaleChina@cengage.com

Gale数字学术

圣智旗下Gale公司是领先的参考资源出版商，致力于与图书馆合作，通过丰富且权威的内容以及先进的技术推动知识发现与深入思考。

最新文章

美国农场工人联合会和奇卡诺文学：一次文献作为语言和文化研究的工具

【新书出版】《中国式现代化研究》丛书第六册顺利出版

在Gale原始档案中探讨系谱学

Gale 十二月快讯

在相辅相成的档案中研究殖民主义：“十九世纪作品在线”和“去殖民化”

为人文学者编写的代码：Gale数字学术实验室中的Python笔记本

摆脱剧本：怎样在戏剧研究中使用Gale原始档案

网络研讨会预告 | 透过西方人的视角看中国各地

利用大语言模型对十九世纪英国报纸进行后OCR校正

网络研讨会预告 | 透过西方人的视角看中国各地

Gale 十一月快讯

珍稀原始典藏档案：保存可能会在战争中丢失的文化遗产

与数据做游戏：利用Twine构建交互式叙事

平面图、图表、图片和绘图：传递视觉信息的“十八世纪作品在线”

英国的“国家”概念及其他

重新定义哲学：为什么一次文献比以往任何时候都重要

Gale 十月快讯

中国与澳大利亚：十九世纪至二十世纪早期的贸易、移民和政治

找到K均值算法的意义：Gale数字学术实验室中的聚类分析

在“美国古文物学会美国历史期刊”中探索美国史

用旅行指南回到一百年前的东方大都市

Gale 九月快讯

在Gale数字学术实验室中构建研究项目

网络研讨会预告 | 通过珍稀文献探讨西马来西亚和新加坡的殖民史

“难民、救济与重新安置：冷战早期和去殖民化”——一套数字化档案的构成

【新书出版】《中国式现代化研究》丛书第四、五册顺利出版

九龙城寨：香港史的意外

网络研讨会预告 | 100年为世界和平所做的努力：查塔姆研究所在线典藏

飞跃：从A-Level到大学的历史学习秘诀

Gale 八月快讯

泰坦尼克号的沉没及其文化和经济影响

传递影响力——“Gale研究展板”及“Gale数字学术实验室：研究项目”发布

Gale网络研讨会回放：历史文献中的地方史——东北往事

全新“环境史”档案：“殖民政策与全球发展，1896-1993年”

探索浪漫主义的灵感来源：是反启蒙运动吗？

Gale网络研讨会：历史文献中的地方史——东北往事

和解还是……我是怎样学会停止焦虑并爱上原始文献的

Gale 七月快讯

Gale数字学术实验室中的命名实体识别、Python笔记本和一位勇敢的女性日记作者

历史报纸中的“刺杀史”

利用Gale历史报纸突出新闻业被边缘化的声音

【新书出版】《现代化新征程中的数字经济》

人工智能时代的文学档案

Gale 六月快讯

电报的力量：二战后新闻电讯的影响力

Gale九月快讯（文末趣味阅读+有奖竞答）

追溯｜历史上那些神秘的诅咒——图坦卡蒙诅咒

Gale网络研讨会回放 | “旧上海文献”：上海滩四大百货公司的百年传奇

2022年Gale网络研讨会预告

去芜存菁：利用Gale数字实验室找到档案文献中的主题

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉