人工智能时代的文学档案

文摘   2024-07-04 15:00   北京  

原文作者

原文发表于Gale Review Blog

Heather Colley,英国牛津大学英国文学专业博士研究生


技术发展的历史与文化批评的历史密不可分,后者总是在质疑每项技术的应用与后果。瓦尔特·本雅明(Walter Benjamin)可能是技术批评界最重要、最常出现的人物之一。而在人工智能的时代,他的经典巨著《机械复制时代的艺术作品》(The Work of Art in the Age of Mechanical Reproduction1 中的一些思想为我们提供了很有用的视角,去观察对艺术、真实性、批评和“机械复制”之间关系早已存在且不断加剧的担忧。




原创和复制


对本雅明而言,机械复制指的是电影和摄影。在他写作的时代,这些媒介代表着艺术实践和艺术商品化之间前所未有的断裂,原创作品和复制品,创作的仪式和创作的展示。本雅明审视原创作品和复制品之间的分歧,以及接下来的复制品的复制品,以此类推,阐述了在大众消费的现代主义时期新的艺术和表达模式。


现在,这种对电影和摄影的理论听起来有些过时。但人工智能的扩张及其在人文批评与学术研究中的作用与本雅明对创作有意义内容的担心相呼应。“原创作品的存在,”他写道,“是真实性概念的先决条件。”这句话也适用于这个史无前例、机器生成文章和分析的时代。在这个时代中,来源文献资料和实体档案对学术诚信和学术批评比以往更加重要。

博物馆观众在拍摄画作的照片。Wikimedia Commons. https://commons.wikimedia.org/wiki/File:WLANL_-E_V_E-_Museumzaal_Van_Gogh_Museum.jpg




机器生成信息与人文学科


在一个机器生成信息唾手可得的环境中,用诺姆·乔姆斯基(Noam Chomsky)、伊恩·罗伯茨(Ian Roberts)和杰弗里·沃图穆尔(Jeffrey Wattumull)三位博士的尖锐言辞来说,大部分的这些信息都是“小说一样的”——真正的学术诚信和辩察力越来越扎根在来源文献中。而开放获取人工智能(例如ChatGPT或Google Bard这样的模式)在人文领域的批评和学术研究中的问题在于它更依赖于记忆。


机器生成知识系统记忆并计算,相比乔姆斯基、罗伯茨和沃图穆尔基于大量信息的预测和推测,它们无法提供创意性的批评或解释因果机制。它们缺乏自我意识感觉,而这是纠正错误的先决条件,是理性思维的必要条件。在学术思考中,理性是以论证推理为基础的,而论证推理根源于创造性的且常常是解释性的批评,自我纠正的过程在其中必不可少。


如乔姆斯基等人在最近的一篇《纽约时报》文章2中所描述的,在这个“野蛮纠正数据点之间相互关系”的无自我意识的世界中,档案成为了一项极为重要的必需品。在回避对实体文献资料的尊重时,一种信息或错误信息能力出现了,并在似乎无边无际的开放获取内容世界中逐渐发展壮大并使自己正当化。实体档案可以帮助纠正光学字符识别(OCR)计算文本挖掘中的错误,这些错误在挖掘多语言文本、不同字体文本或存在例如页面损坏或墨水污渍等问题的古旧档案时,特别容易造成不准确。

Gale“美国小说,1774-1920年”(American Fiction, 1774-1920)中一份文献及其OCR的截图。

Alcott, L. M. (1889). A Modern Mephistopheles, and a Whisper in the Dark: By Louisa M. Alcott …. Roberts Brothers. https://link.gale.com/apps/doc/YDMFFG700275631/AMFN?u=webdemo&sid=bookmark-AMFN&xid=8b9a42a3&pg=3




数字化在当代的应用


当然,机器生成知识的完整性取决于我们向其中输入的知识是否完整。档案调研和重新调研常常会改变我们对文学史和文化的理解。数字人文——广义上数字化和人文研究相交叉的学术运动——在一定程度上是关于远程和数字访问的。但数字化重要文献资料的速度——以及更进一步,数字化档案资料向机器数据知识的转化——还不能跟上人类档案工作的步伐。


早些时候,一位研究者结合使用数字档案和实体档案,发现了大约12部路易莎·梅·奥尔科特(Louisa May Alcott)的著作,之前它们并没有被认定是这位美国女作家所著。因为奥尔科特创作过各种题材的作品,使用过多个笔名——她的名作《小妇人》几乎不能代表她的全部文学作品,实际上她的作品跨越哥特式小说、惊悚小说和成年复仇奇幻小说等——这个发掘她作品集的项目是复杂且离散的。


Max Chapnick的研究发现是数字人文与实体档案之间关系的典型代表。Chapnick的寻找之旅始于他发现了一本以笔名署名的小说,他怀疑是奥尔科特所写。美国古文物学会(AAS)和波士顿公共图书馆的大型数字典藏让他能够找到某些文字与奥尔科特写作风格和个人生活之间的关联。但数字化过程中的一个早期的错误阻碍了他对此的确认:“他最初检索的是I.H.Gould,因为《魅影》(The Phantom)一书的数字化版本在书页上有一道褶皱,盖住了第一个大写字母,” Cody Mello-Klein在他们有关这一研究发现的文章3中写道。“幸运的是,AAS的图书与数字馆藏主管Elizabeth Pope找到了原始的文献,确认了作者的姓名是E.H.Gould。”

路易莎·梅·奥尔科特。Wikimedia Commons. https://commons.wikimedia.org/wiki/File:Houghton_FHM_MS_Am_2242_-_Louisa_May_Alcott.jpg




机器与档案


数字化的人工过程是易于发生错误的,在上述情况下,它影响了我们对一代文豪、她的创意写作、她的作品出版的理解。但对实体档案的保存也意味着这样的错误是可以自我纠正的,我们可以弥补我们不可避免的错误,而我们的自我修正也有助于给出合理的人文解释。但机器与档案之间的分歧依然存在。什么时候、以怎样的方式,机器生成的知识将能够结合这种基于档案的、围绕一位重要美国作家的假定?未能及时整合奥尔柯特写了《魅影》(女性主义者对狄更斯《圣诞颂歌》的看法)这部作品,将会怎样影响ChatGPT照搬的有关这位作家的哪些知识?




实体档案的重要性


为了更好地理解和情景化原本的档案、复制的数字档案和人工智能机器化知识之间的差异,我们可以将自己围绕实体档案重新定位,为学术和研究诚信而尊重它。或者,再次引用本雅明的话,我们可以更好地预防机器化的知识压到档案,因为要“撬开一个物体的外壳,毁掉它的光环”,在我们所处的情景下可能意味着错误地允许人工知识让自己正当化,超过源于档案的、自我纠正的且合理的解释。


参考文献

  1. Benjamin, Walter. The Work of Art in the Age of Its Technological Reproducibility, and Other Writings on Media. London, The Belknap Press of Harvard University Press, 2008.

  2.  https://www.nytimes.com/2023/03/08/opinion/noam-chomsky-chatgpt-ai.html

  3.  https://news.northeastern.edu/2023/11/08/louisa-may-alcott-new-pseudonym/


封面图片:Rise of the machines. (May 9th-15th 2015). Economist, 19+. https://link.gale.com/apps/doc/OXUCSW340676990/ECON?u=webdemo&sid=bookmark-ECON&xid=67c25641


欢迎关注:



Gale官方微信公众号及视频号:



联系我们

识别二维码填写您的联系信息和问题

或发送邮件至:

GaleChina@cengage.com

Gale数字学术
圣智旗下Gale公司是领先的参考资源出版商,致力于与图书馆合作,通过丰富且权威的内容以及先进的技术推动知识发现与深入思考。
 最新文章