震惊!新论文发现AI并不擅长历史

文摘   2025-01-21 18:06   山东  
人工智能在某些领域表现优异,比如编码或播客制作,但当面对高级历史考试时,它们的能力却显得不足。一项新研究表明,当前顶级大型语言模型(LLMs)在回答复杂历史问题方面表现不佳,这为人工智能在深度学术领域的应用敲响了警钟。
人工智能在某些领域表现优异,比如编码或播客制作,但当面对高级历史考试时,它们的能力却显得不足。一项新研究表明,当前顶级大型语言模型(LLMs)在回答复杂历史问题方面表现不佳,这为人工智能在深度学术领域的应用敲响了警钟。
研究人员开发了一种名为 Hist-LLM 的新基准,用以测试三大语言模型——OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini——在历史问题上的表现。这个基准基于 Seshat 全球历史数据库,后者是一个以古埃及智慧女神命名的庞大历史知识库,包含大量细致的历史数据。
奥地利复杂性科学中心(CSH)近日在 NeurIPS 人工智能会议上公布的研究结果显示,表现最好的 GPT-4 Turbo 也仅有约 46% 的准确率,与随机猜测水平相差无几。CSH 研究人员之一、伦敦大学学院计算机科学副教授玛丽亚·德尔里奥-查诺纳(Maria del Rio-Chanona)表示:“尽管大型语言模型在许多任务上表现令人印象深刻,但在博士级历史研究的细微领域,它们仍显不足。它们擅长处理基本事实,但面对更复杂的历史问题时,能力有限。”

历史知识的盲区:从鳞甲到常备军

研究人员向 GPT-4 Turbo 提出了一些技术性历史问题,其中不少得到了错误回答。例如,当被问及古埃及某一时期是否存在鳞甲时,模型给出的答案是肯定的,但实际上这种技术直到 1500 年后才出现在埃及。此外,针对古埃及是否拥有专业的常备军的问题,虽然正确答案是否定的,模型却错误地回答“有”,可能是因为其他古代帝国(如波斯)拥有常备军的广泛信息对模型推断产生了误导。
德尔里奥-查诺纳进一步解释:“当模型从大量重复的显著数据中学习时,很容易忽略那些更稀少或不突出的信息。如果你听到 A 和 B 100 次,却只听到 C 1 次,那么回答关于 C 的问题时,很可能会基于 A 和 B 进行推测。”

数据偏差与改进方向

研究还发现,这些模型在处理撒哈拉以南非洲等特定地区的历史问题时表现尤为糟糕,表明训练数据可能在地域上存在显著偏差。这种偏差进一步限制了模型在全球范围内的应用。
研究负责人、CSH 教员彼得·特尔钦(Peter Turchin)表示:“这些结果表明,在某些学术领域,人工智能尚无法替代人类,但这也为改进模型指明了方向。”研究团队计划通过纳入更多来自代表性不足地区的数据、设置更复杂的问题来完善 Hist-LLM 基准,期待未来的模型能够为历史学家提供更大的帮助。
尽管研究揭示了LLMs的诸多局限性,但也强调了其在历史研究领域的潜力。论文总结道:“我们的研究结果不仅展现了模型亟待改进的方面,也揭示了其在辅助学术研究中的可能性。”


来源参考:TechCrunch
编辑、审校、整理:陈怡

End



企业热点
大空间情报

行业解读

报告精选



元力社
元宇宙产业服务平台!专注元宇宙、AI、数字人、Web3最新动向,挖掘机遇、传播价值。
 最新文章