【安译·资讯】基于数字的历史：历史是个人能动性和行为的问题，还是寻找和量化基本结构和模式的问题？

文摘历史 2024-04-14 01:21 上海

基于数字的历史

历史是个人能动性和行为的问题，还是寻找和量化基本结构和模式的问题？

“史料不是一只小猫，而是一只剑齿虎。”

经济学家罗伯特·福格尔（Robert Fogel）和斯坦利·L·恩格尔曼（Stanley L. Engerman）根据路易斯安那州历史学家埃德温·亚当斯·戴维斯（Edwin Adams Davis）根据种植园主的日记制作的表格计算出了，在路易斯安那州班纳特·巴罗（Bennet H. Barrow）拥有的一个棉花种植园里，1841 年和 1842 年， "总共实施了 160 次鞭打，平均每年每只手被鞭打 0.7 次。"这一数字。

在一本对于奴隶制史学有争议性修改的著作《苦难的时代：美国奴隶制经济学》（1974）中，经济学家们提出了上述数字，以及许多其他数字。该书的营销策略是在吸引大众的同时树立学术权威（这本没有脚注的书附有各种算式与有着大量表格支撑的补充材料），并引起争议。由是，南北战争的“不可避免性”岌岌可危。作者从理性奴隶主的新古典主义模式入手，指出种植园经济获利颇丰，并在书中写道：

“种植园主试图向奴隶灌输一种‘新教’的工作伦理......这样一种心态是无法灌输给奴隶的。它必须被激发出来。”

他们还通过类似的办法将对奴隶的性虐待以及家庭分离也变得微不足道。

图1 《苦难的时代》1989年英文版书影

在美国，关于《苦难的时代》的争论给经济学家和历史学家之间的关系蒙上了一层长长的阴影。福格尔和恩格尔曼将自己描述为 “新经济史”——也被称为“计量史学”——的英雄，他们利用数字和模型来使历史学变得更有效率，这至今仍被许多人奉为圭臬。他们认为，美国国家科学基金会（National Science Foundation）的拨款可以资助助理团队，最终将推翻老一辈历史学家的论点。与此同时，20 世纪 70 年代的大多数历史学家不仅否定了该书对奴隶制的评价，而且普遍否定了其量化方法，因为这些方法缺乏对于人类经验和能动性的复杂性的考虑。事实上，这只是长达数十年的战争中的又一个插曲。为什么历史上会有关于数字的争论？因为长期以来，定量方法一直是一种信号和象征，它所代表的远不止是计算能力或计算机水平。科学学科往往是在二元对立的战争中发展起来的，“定量与定性”就是一个典型。当每个根深蒂固的阵营都一成不变时，这就成了一个问题。

不过，凡事总有例外：有勇气的学者敢于跨越战场，探索和开辟新的领域。义愤填膺的学者们写了数百页的文章，驳斥福格尔和恩格尔曼的假设和证据，而社会史学者赫伯特•古特曼（Herbert G. Gutman）是他们中的一员，他是一位研究美国黑人家庭的专家，他在自己的研究[1]中毫不犹豫地将原始资料转化为数字。然而，并非任何数字都能说明问题。正如古特曼在《奴隶制与数字游戏》（1975）一书中指出的那样，谈论每年受到 0.7 次鞭打，就好比写出 1889 年生活在美国的 99.998% 的黑人没有被用私刑处死一样毫无意义。另一种看待平均 0.7 次鞭刑的方法是，根据此推算出种植园中的每个奴隶每 4.56 天便会见证一次鞭刑——对于男人的鞭刑每周一次，对于女人的鞭刑每 12 天一次。相较于恐吓而言，诱导的作用不过如此。

解读数字的方法不止一种，这一点看似显而易见，但在历史学家再次声称他们将效仿所谓的 “硬”[2]科学，并因此获得巨额资助和雇佣大批助手的时候，这一点值得反复强调。勾勒“数字战争”（the numbers wars）的历史也许是一种可以避免再次将“硬”的、科学的、男性的、简单化的、唯物主义的量化与模棱两可的、细致的、女性的、复杂的、人文主义的历史对立起，从而使书籍和文章没那么枯燥乏味的方法。

埃马纽埃尔·勒华拉杜里在 1968 年写道：“未来的历史学家要么是一名程序员，要么便再无他立足之地。”那是许多国家和专业都流行计量史学的鼎盛时期；它被冠以“新”的名号：不仅是“新经济史”，还有“新社会史”、“新政治史”。其新颖性可能会受到质疑：事实上，在此前的几十年中已经变成了“穿孔卡片上的历史”[3]，而且早在 1903 年，年轻的法国社会学家弗朗索瓦·西米昂（François Simiand）就为这场唇枪舌战定下了基调。他公开抨击朗格诺瓦（Charles-Victor Langlois）和瑟诺博斯（Charles Seignobos），他们都是著名的历史学教授和来源批判（当时的新方法，如今仍是史学界标准）的支持者。

图2 法国年鉴学派第三代代表人物勒华拉杜里，1929-2023

西米昂指出了[4]“历史学部落的三种崇拜”：“政治崇拜......个人崇拜......和编年崇拜”，以及历史学家对因果关系的非科学观点。相反，社会学方法，即统计方法，可以让历史学家揭示持续存在的基本现象，而不是专注于领袖传记或战役，这一点在经济史中尤为明显。这场论战为“数字战争”奠定了基调。数字将站在真正的科学、自下而上的历史和物质生活中的长期趋势这一边。另一方面，1963年，美国历史协会主席卡尔·布里登博（Carl Bridenbaugh）试图将 “那个捉摸不定的事物（that Bitch-goddess）——量化”消灭在萌芽状态，他发声以捍卫[5]“个人的生活和日常存在感”、“个人的理解”和 “个人本身”。

布里登博的演讲带有明显的保守主义色彩，但从马克思主义者到新古典经济学家们，以量化为导向的 “新史学家”有着非常多样的政治倾向和理论体系。他们都投身于社会科学的实证主义化这一国际潮流之中。“新社会史学家”关注的人物、主题和资料来源以前大多被主流历史学家所忽视：他们利用税务登记册、婚姻记录等来得到普通人一生全部的生活经历。但是，他们往往将这些普通人视为一个整体，认为他们受制于客观的“社会结构”，而他们对这些结构并不完全了解。“结构”这个关键词，无论是指阶级斗争还是家庭的典型规模形式和分工，都表明细节并不重要。个人的主观能动性也不重要。

“新史学家”对 20 世纪的统计数据充满信心，并据此对资料来源的“可靠性”进行排序。数据量越大、越同质化、越适合当代分类越好；数据来源的其他特征则是需要解决的问题。1955 年，“新政治史”的先驱之一的沃尔特·迪恩·伯纳姆(Walter Dean Burnham)出版了近 1000页的关于1836-1892年总统大选的选票数据。到了 20 世纪 80 年代，类似的书籍仍然屡见不鲜。

激进派学者并不满足于书写一部关于大众的历史，他们试图恢复个人的声音

在分析数据时，必须在历史学科部门之外的大型计算机上进行。数据的生产工作更加密集，分工更加细化，需要用到研究助理以及打孔机操作员、制图员和其他专业人员来读取资料。这种等级分明的集体研究模式显然是为了效仿 “硬”科学的模式。作为在政治上反对福特主义的激进分子，许多“新史学家”并不完全赞同这种组织形式。福格尔和恩格尔曼的批评者谈到了历史学“工厂”中的“受人轻视之人”（helots）（该词来自于斯巴达人的奴隶）的工作。

这类研究中的一些开创性工作至今仍被引用：密歇根大学对 1427 年佛罗伦萨人口普查的研究是家庭史上的里程碑。然而，许多系列研究或其分析工作从未完成，数据往往丢失在一代又一代的计算机格式中。更普遍的问题存在于这些投资的回报上。

无独有偶，20世纪80年代的新自由主义经济政策使得大多数国家减少了对历史学研究项目的资助。如果想获得终身职位，论文就必须成为可读的书籍。因此，当微型计算机允许历史学家处理他们自己的数据时，量化似乎就不那么有价值了。事实上，计算能力的随时可用性降低了所采用方法的价值，部分原因是这些方法所带来的与众不同（也随着计算能力的随时可用而消失）。

然而，历史学科中的量化并没有悄无声息地消亡。它还因夸大对结构和连续性的关注而受到攻击。虽然“新社会史”最初的目标是让普通人（指不出名的人）成为合法的研究对象，但激进的学者们不再满足于撰写大众历史。他们不仅越来越关注少数群体，而不仅仅是“普通人”；他们还试图让个人的声音和能动性得以恢复。总体而言，大多数历史学家反对马克思主义、经济决定论、结构主义和量化，而倾向于历史的个人、叙事、文化或政治维度——认为所有这些都与量化对立。

从 20 世纪 90 年代初开始，大学中为历史学家开设的定量方法课程大多销声匿迹[6]。在一些地方幸存下来的定量方法课程往往与教学大纲的其他部分脱节，就像玛戈·安德森（Margo Anderson）在 2007 年所说的那样，这些课程更类似于旨在用于特定的资料来源的外语课程。经济史大多是在经济学系编写的，在那里，对于没有官方统计数据，事实上也没有民族国家的时期，重新进行对于国内生产总值的估算被认为是不言而喻的。然而与此同时，历史学系的大多数人认为这些工作是过时而且毫无意义的（过去的国内生产总值又有什么重要的呢？）——如果它们（过去的GDP）意识到它们的存在的话。非量化历史学并没有一个公认的旗帜：它只是学术生活中的一个事实罢了。劳伦斯·斯通（Lawrence Stone）确实在1979年预示了[7]“叙事的复兴”；但从历史学系的角度来看，由于缺乏旗帜鲜明的反对者，数字战争在人们的记忆中逐渐消失。

对于今天的许多历史学家来说，计算机或数字的使用指的是二十世纪中叶流行的 “数字人文学科”，或过去十年间流行的 “大数据”。大多数打着这些旗号的人都主动忽略了 20 世纪 60 年代 “新史学家”的存在——他们宁愿把自己的努力说成是全新的，他们不是从社会学或经济学中寻找灵感，而是从计算机科学或物理学中寻找灵感。然而，他们对于许多古训进行了重塑：“重新改造”历史学，使其功能更像“硬科学”，有着更多的资金、更多的团队合作和更多的客观性。在勒华拉杜里说出那句名言的五十年之后，既是程序员的历史学家又回来了，并且是带着复仇的心态。当他们意识到之前第一波浪潮时，他们认为它失败的原因是它来得太早了。现在，更加先进的计算机和更多的数字化数据将为成功铺平道路。

资助机构似乎也有同样的看法。自21世纪以来，针对任何 “数字化”或“大型”项目的资助激增。这导致了大量聘用输入数据的临时人员的情况出现。一些数字人文项目再次假装它们将使以往所有的学术研究过时，然后大量资源被投入其中，却并没有产生什么原创性的历史研究成果。2013 年启动的“威尼斯时间机器”计划旨在通过对于浩如烟海的档案资料的数字化，建立“威尼斯及其千余年演变的多维模型”。可以说，该项目推进了计算机科学的研究，尤其是在光学字符识别领域上，但对史识的益处却远未显现。也许可以预料的是，该项目遇到了严重的问题并于2019 年被搁置，但为期八年的“第二阶段”现已公布。

与此同时，大卫·阿米蒂奇（David Armitage）和乔·古尔迪（Jo Guldi）的《历史学宣言》（2014）甚至批评了许多历史学家对档案、个人机构和身份政治利害的过分关注。在全新的浪潮中，他们采用了最为武断的言辞，并伴随着大肆宣传——就像是新的福格尔-恩格尔曼二人组。在为Aeon撰写的一篇关于非数据驱动型历史学家专业化的评论文章中，他们写道[8]：“为什么不把那些‘内向’但其中展现了很强专业素养的专著和期刊论文扔进人文学科的火堆中呢？”

图3 2017年出版的中译版《历史学宣言》

随着历史资料在网上的出现，许多人在分析这些资料时并不质疑其出处和结构

令人震惊的是，1980 年前后对第一波“大科学”浪潮提出的许多批评，今天都可以原封不动地重提：拥有雄厚的资金、充满数学思维、追求数据详尽——但对过去的新见解却寥寥无几。举例而言，那些对Google Ngrams（谷歌语料库）惊叹不已，却不去想谷歌图书中到底包含了什么的人，对我们而言，和那些对虚减工资的数字钦佩有加，却不质问其来源的人并无太大区别。

20世纪60年代的“新史学”时期的一些从业者认为，使用新技术进行数据存储和分析就可以对资料来源进行批评，然而“数字人文”项目正重蹈覆辙。追求“大”的新风潮往往基于一种许多偏见会相互抵消的天真旧观念。考古学以及古代史和中世纪史在这方面提供了许多值得警示的故事。例如，对考古和中世纪叙事资料进行细致网络分析的先驱索伦·迈克尔·辛德巴克（Søren Michael Sindbæk）写道：“‘大数据’很少是好数据。”这句话总结了他在一个大型异构海洋网络数据存储库中所做的实验[9]。这些数据的网络可视化大多揭示了考古知识和愚昧的模式——这本身是一个有用的结果，但不能与中世纪的交通模式混为一谈。然而，随着历史资料越来越容易从网上获取，许多经济学家、物理学家和其他学者在分析这些资料时却对其来源和结构不加质疑。

我们喜欢历史学家马特乌什·法芬斯基（Mateusz Fafinski）的告诫[10]：“史料不是你熟悉的小猫。它是一只剑齿虎，如果你不尊重它，它就会把你和你“村里”的数据科学家当早餐吃掉。但我们目前还不确定各学科之间的权力分配是否允许这种形式的报复。非量化历史学家不可能很快便赢得这场跨学科基金的争夺战；历史学家也不可能阻止其他学科的从业者对数据进行曲解。然而，仅仅离开战场，忘记（财政上）窘迫的历史学系关于方法的争吵，并不能让我们感到满足。方法论上的彻底战争会使他们将枯燥乏味的研究标准固化在存在分歧的每一方，而这样的战争毫无成效可言。然而，总有一些例外情况——较不为人知的混合实际上产生了新的见解。我们希望从学术研究中没那么好战的那些阴影部分中揭示出这些例外情况。

当其他人大声宣传所谓的数字革命时，许多同行发明了富有成效的方法来弥合人文科学和社会科学方法之间的差距。他们在各种来源批评和情景知识与定量、形式或以数据为中心的方法之间建立了各种联盟。其中不乏开创性的例子——开创性的原因在于他们并没有形成一个学派或分支学科。早在 1978 年，锡西·费尔柴尔德（Cissie Fairchilds）就利用统计技术深入分析[11]了 18 世纪晚期法国私生子档案中一个据称很小的样本。她的研究之所以引人注目，是因为她对关系和社会背景的重塑进行了仔细讨论，而在她的资料中，这些关系和社会背景是根据当时的法律分类的。她的目的是在资料允许的范围内，使她的量化工作尽可能贴近当时妇女的生活经历和声音。

2017 年，艺术史学家亚尔·赖斯（Yael Rice）出版了一份关于 16 世纪莫卧儿王朝宫廷手稿的研究报告[12]。这些手稿不仅包括精美的插图，还包括记录了图画背后合作的名字——例如，设计师和调色师之间的合作。赖斯利用这些线索揭开了几乎没有留下其他痕迹的作坊的运作。她发现了一种稳定的合作轮转，这或许可以解释一种融合的宫廷绘画风格是如何形成的。

图4 亚尔·赖斯关于 16 世纪莫卧儿王朝宫廷手稿研究报告中的网络图示

因此，两位女历史学家通过仔细和创造性地细读资料，发现了她们的前辈认为无法评估的东西。她们的一些研究成果是通过大多数历史学研究生课程中没有教授的方法（对于费尔柴尔德家族的统计检验、对于赖斯家族的网络分析）得出的，在 20 世纪 90 年代末之前，没有任何历史学家能够在个人电脑上应用这些方法。然而，她们只靠自己完成了这项工作，而且这只是她们研究的一部分。这并不意味着她们必须停止对类别的质疑、忘记个人能动性或搁置美学问题。量化技术只是帮助她们完成人文学者工作的工具之一。

在这个世界里，有各种的同行在制作“家常菜”和定制的形式化作品，我们在政治领域和科学领域上都有一种宾至如归的感觉——比在“改头换面”的历史学家的世界里更加明显。此外，这里发生的事情也没那么无聊。使用定量方法来证明众所周知的结构的重要性，无异于用神兵利器白费功夫(beating a dead horse with a highly sophisticated bludgeon)。如果结果是可以预测或预料的，我们还需要花费如此多的时间和精力去收集、计算和分类吗？然而，还有其他不同的更有意义的计数方法。

计数总是需要决定将两个元素视为等同或不同的元素

在微观尺度上使用量化是可能的，甚至可以评估个人的特殊性并讨论他们的能动性。推动量化的是信息的密度和系统地处理信息的决心--而不是直接处理整个社会。20世纪 80年代，一些意大利微观史学家利用量化技术探讨了爱德华多·格伦迪（Edoardo Grendi）提出的“例外的正常”（exceptional normal）这一概念的含义，此后又有一些人这样做了。例如，2012 年，保罗·奥科博克（Paul Ocobock）利用一名肯尼亚亚裔男孩遭受鞭笞的叙述来支撑他对于殖民地时期肯尼亚的体罚的研究考察[13]——但他将这一叙述与对法庭和监狱记录的量化研究结合在一起，显示出该男孩经历的哪些方面是普通的（他的年龄和性别），哪些方面是特殊的（他的亚裔血统）。数据不一定是与单一现象相关的同质长序列。错综复杂的轨迹和交互更为有趣：通过多重对应分析、网络分析或序列分析等技术，可以发现其中的规律模式。

图5 2012年保罗·奥科博克发表的关于殖民地时期肯尼亚体罚情况的研究论著

计数总是需要决定将两个元素视为等同或不同。量化使用的是分类数据。然而，这种分类不一定要以标准的、非历史的方式进行，也不一定要对活生生存在的身份认同的错综复杂视而不见。在历史资料的基础上用诸如 “职业类型”、性别或宗教信仰对人进行分类，无论其目的是为了得出百分比还是撰写叙事，这都会是一项在科学层面上棘手而充满浓厚政治色彩的工作。一些量化研究者认真严肃地对待这项任务。而这样做的前提是接受我们资料来源中存在的复杂性、偏见和沉默。

大多数量化研究者经常谈论“清理”数据，这意味着数据来源的异质性是一个需要解决的问题--而解决这个问题是一项“庶民”[14]的任务。相反，对我们来说，从资料来源中建立数据，并创建不抹去所有复杂因素的类别，不仅是研究中最漫长、最复杂的阶段，也是最有趣的阶段。我们向狡猾的历史学家（这是女性主义学术语境中的一个词组）传授[15]异常值、怪异性以及缺失的数据的价值--简而言之，就是存储在冗长的电子表格中的“脏数据”（dirty data）的价值。此外，我们还教授例如交叉经济学等领域中所开发的分析技术：指出不平等现象之间存在差异，不能相提并论是非常重要的；而探索不平等现象之间是如何相互作用的，可以说是社会史研究中最令人兴奋的任务之一。

简而言之，非传统的量化研究者与微观史学家乔瓦尼·莱维（Giovanni Levi）一样，都希望避免被动地处理数据和资料来源，避免与“独断专行的话语形式”相关的、缺乏启发性的实证主义。他们不希望在没有精确数据支持的情况下使用诸如“经常”或“一般”这样的副词；但他们将形式化而非肯定作为一种直觉辅助手段。

即使这些数字似乎明确驳斥了传统智慧，调查也不应就此结束。如果数据如此轻易地反驳了传统智慧（无论是历史学家还是演员的智慧），那么传统智慧又是从何而来的呢？例如，杰夫·坎费尔（Geoff Cunfer）指出[16]，“沙尘暴”并不像人们普遍认为的那样，是由滥垦草原直接造成的，而是由干旱造成的，而干旱在 19 世纪晚期经常引发类似的沙尘暴。不过，他并没有就此止步，而是解释了有关更早时期的沙尘暴和表现“沙尘暴”的艺术作品的数据匮乏是如何影响以前的解释的。

图6 Scaling the Dust Bowl 书影

当数字被用作工具而非崇拜物（fetishes）时，就可以对资料来源进行陌生化（defamiliarisation）、比较和斜向解读：它们可以成为一种实验性历史实践的一部分，这种实践具有游戏性，既不枯燥乏味，又注重伦理道德。量化方法不仅不会限制直觉和创造力，反而可以激发它们。将历史资料转化为数据并不一定会使其变得贫乏，也不一定会抹杀生活阅历。量化或“数字历史”只是提供了新的方法，让我们能够以不同的方式看待这些资料，并促进新的解释。这些方法有助于提出问题和明确分类，防止我们将广为流传的经历和令人尴尬的例外情况隐藏在我们的解释（interpretive carpets）之下。但它们绝对不是某些人仍在期待的通过确定因果关系或得出明确答案来扼杀辩论的终极武器。

（注：本文翻译自History by numbers，Claire Lemercier & Claire Zalc，原文发布于AEON，https://aeon.co/essays/historical-data-is-not-a-kitten-its-a-sabre-toothed-tiger）

| 参考文献 |

[1]https://www.tandfonline.com/doi/abs/10.1080/03071028508567633

[2]这里的“硬”科学指的是与人文社科相对的自然学科，如物理学、化学、生物学等。

[3]早期的数字电脑运用打孔机已输入信息的打孔卡当做计算机程序和数据的主要输入媒介，因此“打孔卡片上的历史”在此处也意指利用计算机对历史资料进行量化处理。

[4]https://www.jstor.org/stable/40241019

[5]https://academic.oup.com/ahr/article/68/2/315/56618

[6]https://www.jstor.org/stable/204919

[7]https://www.jstor.org/stable/650677

[8]https://aeon.co/essays/the-role-of-history-in-a-society-afflicted-by-short-termism

[9]https://www.carlsbergfondet.dk/en/Forskningsaktiviteter/Research-Projects/Semper-Ardens-Research-Projects/Soren-Michael-Sindbaek_Northern-Emporium

[10]https://mfafinski.github.io/Historical_data/

[11]https://www.jstor.org/stable/203081

[12]https://docs.lib.purdue.edu/cgi/viewcontent.cgi?article=1151&context=artlas

[13]https://www.jstor.org/stable/23267170

[14]Subaltern一词，出于意大利共产党人葛兰西（Antonio Gramsci）关于社会霸权问题的讨论。

[15]https://muse.jhu.edu/article/798741

[16]http://downloads2.esri.com/ESRIpress/iGmages/133/knowles.pdf

译者：

编辑：

扫描二维码或点击下方名片关注我们，您的持续关注将是我们坚持创作的动力源泉！

http://mp.weixin.qq.com/s?__biz=Mzg5NzYzMTA4MA==&mid=2247485135&idx=1&sn=5da47e1e8da8011d31843fff5149538c

安提柯学社

安提柯（Antico）学社是一个以学生为主的世界历史文化爱好者社团。