大模型时代构建专业语料库助力历史学研究的新路径

文摘   科技   2023-11-26 17:14   陕西  
加拿大学者的论文If the Sources Could Talk: Evaluating Large Language Models for Research Assistance in History探索了利用大语言模型(LLM)助力历史研究的可能性。
我们把焦点放在作者构建的研究语料库上,这是一项汇聚了86本数字化历史专著的令人瞩目工作。这个语料库不仅是一个向量数据库,更是为历史学家提供了一种崭新的研究路径。

本研究中的语料库
作者聚焦于爱尔兰移民研究领域,涵盖了多个分支学科,包括爱尔兰研究、古巴研究、移民理论和奴隶史。其中包括了该领域的顶尖学者的代表作,形成了一个丰富多彩的学术资源。
这个语料库实际上是一个向量数据库,利用了预训练的Transformer词向量模型和Chroma向量数据库。每个文本片段都被映射为一个固定长度的向量,使得语料库能够进行高效的语义搜索。这种结构为研究者提供了一种更加智能、迅速的文献检索方式,有力地助推了历史研究的前进步伐。

语料库助力问答(“让史料自己说话...”)
在问答测试中,作者采用了直接询问LLM和从语料库中检索相关文本的方式。结果显示,语料库文本的引入明显提高了LLM的准确率,最高达到了92.5%。这种结合向量检索的优势不仅体现在准确率上,更在于验证语料库中的文本片段,使得LLM的回答更具说服力。
这种方法的创新之处在于,它不仅仅是机器生成的回答,更是结合了人类智慧的验证。这种混合模式使得AI与人类专家之间形成一种紧密而高效的协作,推动了研究的深入进行

研究主要使用的工具与框架
在这一研究中,使用了多种LLM工具,包括ChatGPT、GPT3、Falcon、XGen等。实验框架的构建是基于LangChain。值得注意的是,为了提升LLM的准确性,作者降低了温度参数,限制了LLM的创造性,使其更专注于提供精准的答案

见贤思齐
对于历史学家而言,如何构建类似的框架?
1. 构建专业语料库:首先,根据研究领域,收集重要的资料(一手、二手)。这些文献应该尽可能涵盖多个分支学科,以构建一个丰富而多元的语料库。
2. 选择合适的工具与框架:在构建语料库的同时,选择适合自己研究需求的LLM工具和实验框架。这可能包括ChatGPT、GPT3等,并使用LangChain等框架连接向量检索与LLM。
3. 自定义语料库+询问式交互:利用构建好的语料库,通过询问式交互的方式,能够更灵活地引导LLM提供定制化的学术辅助。这种互动方式使得研究者更有掌控感。
4. 商业化LLM与开源方案:商业化LLM如ChatGPT可能表现更佳,但如果条件不允许,开源方案也已经相当强大。根据研究需求和资源情况选择合适的方案。
5. 关注语料库文本质量:优先选择已通过同行评议的学术文献,确保语料库的文本质量。同时,检验LLM引用的语料证据也是不可或缺的一环。

通过遵循这些建议,历史学家们有望构建出一个更加智能、高效的研究框架,充分发挥AI在历史研究中的助力作用,推动数字人文研究迈向新的高度。


思考:人文学科的未来会是怎样

LLM只是人工智能在人文学科应用的一个切入点。未来,AI必将渗透到传统人文研究的更多领域,并深刻改变其面貌。

  1. 产生新兴交叉学科

计算机科学与人文社科的交叉,将催生、促进新兴学科,如数字人文学这类交叉学科或成为未来主流。

  1. 促进学科一体化

过去各学科之间交流有限,LLM有助打破学科壁垒,加速知识融合。这将推动人文学科的全面协作与一体化发展。

  1. 催生新老结合的研究范式

AI并非要颠覆传统研究,而是与之互补。未来的顶尖研究范式,可能是新老结合:既继承人文学科的古典积淀,也利用AI的精准推理。如此,方能更上一层楼。



当然,LLM也面临一定风险,比如生成假信息。因此『机器学习,人类讲述』可能是一个可持续的研究模式。总体而言,LLM助力下的人文研究,前景光明,值得期待!


智能数字人文
人工智能与数字人文