震惊！新论文发现AI并不擅长历史

文摘 2025-01-21 18:06 山东

人工智能在某些领域表现优异，比如编码或播客制作，但当面对高级历史考试时，它们的能力却显得不足。一项新研究表明，当前顶级大型语言模型（LLMs）在回答复杂历史问题方面表现不佳，这为人工智能在深度学术领域的应用敲响了警钟。

研究人员开发了一种名为 Hist-LLM 的新基准，用以测试三大语言模型——OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini——在历史问题上的表现。这个基准基于 Seshat 全球历史数据库，后者是一个以古埃及智慧女神命名的庞大历史知识库，包含大量细致的历史数据。

奥地利复杂性科学中心（CSH）近日在 NeurIPS 人工智能会议上公布的研究结果显示，表现最好的 GPT-4 Turbo 也仅有约 46% 的准确率，与随机猜测水平相差无几。CSH 研究人员之一、伦敦大学学院计算机科学副教授玛丽亚·德尔里奥-查诺纳（Maria del Rio-Chanona）表示：“尽管大型语言模型在许多任务上表现令人印象深刻，但在博士级历史研究的细微领域，它们仍显不足。它们擅长处理基本事实，但面对更复杂的历史问题时，能力有限。”

历史知识的盲区：从鳞甲到常备军

研究人员向 GPT-4 Turbo 提出了一些技术性历史问题，其中不少得到了错误回答。例如，当被问及古埃及某一时期是否存在鳞甲时，模型给出的答案是肯定的，但实际上这种技术直到 1500 年后才出现在埃及。此外，针对古埃及是否拥有专业的常备军的问题，虽然正确答案是否定的，模型却错误地回答“有”，可能是因为其他古代帝国（如波斯）拥有常备军的广泛信息对模型推断产生了误导。

德尔里奥-查诺纳进一步解释：“当模型从大量重复的显著数据中学习时，很容易忽略那些更稀少或不突出的信息。如果你听到 A 和 B 100 次，却只听到 C 1 次，那么回答关于 C 的问题时，很可能会基于 A 和 B 进行推测。”

数据偏差与改进方向

研究还发现，这些模型在处理撒哈拉以南非洲等特定地区的历史问题时表现尤为糟糕，表明训练数据可能在地域上存在显著偏差。这种偏差进一步限制了模型在全球范围内的应用。

研究负责人、CSH 教员彼得·特尔钦（Peter Turchin）表示：“这些结果表明，在某些学术领域，人工智能尚无法替代人类，但这也为改进模型指明了方向。”研究团队计划通过纳入更多来自代表性不足地区的数据、设置更复杂的问题来完善 Hist-LLM 基准，期待未来的模型能够为历史学家提供更大的帮助。

尽管研究揭示了LLMs的诸多局限性，但也强调了其在历史研究领域的潜力。论文总结道：“我们的研究结果不仅展现了模型亟待改进的方面，也揭示了其在辅助学术研究中的可能性。”

来源参考：TechCrunch

编辑、审校、整理：陈怡

End

企业热点

大空间情报

行业解读

报告精选

元力社

元宇宙产业服务平台！专注元宇宙、AI、数字人、Web3最新动向，挖掘机遇、传播价值。

最新文章

北京：打造超10个文化标杆应用场景，推进虚拟数字人演唱会，开展元宇宙沉浸演出

元宇宙日报丨博物馆用AI数字人“复活”文物、山东打造沉浸式特色文旅场景、马斯克考虑应用区块链来提高政府效率

将红色文化有机融入思政课，元宇宙大空间再现长征精神

2024-2025年LBE VR大空间市场观察（综合篇）

穿越3000年，“亲历”封神世界：《封神·朝歌》沉浸展震撼面世

首次！济南开启“元宇宙+开标”新模式

元宇宙日报丨首个世遗元宇宙，沉浸春节社交、深圳市区块链备案项目25个、昆仑万维由盈转亏？

复活兵马俑，再见秦始皇！陕西省首个原创元宇宙大空间项目亮相

AI智能音乐生成技术与元宇宙

甘肃：以人才、资金、算力等资源集聚效应，带动AI、元宇宙产业发展

元宇宙日报丨元宇宙庙会赏民俗、青岛AI力争达到1200亿元、去年AI应用消费超12亿美元

1∶1精准还原洞窟原貌，《寻境敦煌》元宇宙大空间项目亮相杭州

VR大空间、人工智能、游戏技术……用7个关键词，回看2024文化产业的“向新力”

特朗普最新官宣！3.6万亿“星际之门”将落地

AI领域竞争加剧，初创企业在2025年突破重围需要具备哪些条件？

【最新】VR大空间“真实世界研究”（附新版产品汇总表格）

天津：最高1000万元，支持元宇宙教育、医疗等应用场景建设

元宇宙日报丨天津市电力工业元宇宙重点实验室、歌尔微电子向港交所递交上市申请

“穿越”时间与空间，四川凉山首家元宇宙大空间

未来两年，有关元宇宙发展的十大预测

元宇宙如何影响娱乐

河南：瞄准元宇宙、区块链，加快建设重点领域垂直大模型

元宇宙日报丨北京朝阳推出27个互联网3.0元宇宙应用场景、甘肃算力规模突破5万P

穿越3600年前的商王朝，大空间VR沉浸展探索河南历史文化

深度丨元宇宙虚拟财产属性界定的基本逻辑

震惊！新论文发现AI并不擅长历史

特朗普一上台，拜登AI禁令被秒撤！硅谷科技「壕客」齐聚就职典礼现场

上海市第二批元宇宙重大应用场景建设成果名单发布

再获殊荣！新知元浪荣登2024 LBE大空间内容榜

元宇宙日报丨杭州五常推出首个“元宇宙”街区、我国首个“花木兰3D超写实数字人”

聚焦古代帝王陵寝探秘！XR元宇宙大空间沉浸式感受古人智慧

报告丨我国网民规模达11.08亿人，手机网民规模达11.05亿人

北京市加快推动“人工智能+新材料”创新发展行动计划（2025-2027年）（征求意见稿）

【人工智能政策汇编】国家及31省市如何提及AI的研发、应用、监管

【史上最全】国内100+LBE VR大空间大汇总

广西：最高200万元，推动工业元宇宙技术攻关

元宇宙日报丨上海去年累计63款大模型通过备案、北京最大智算中心算力再升级、全球人工智能产业融资金额超4000亿元

中国天眼元宇宙：赋能天文科普

AI PC时代已来！苹果、微软谁将赢得未来PC市场？

湖南湘潭：打造红色元宇宙体验馆，构建韶山数字孪生世界

元宇宙日报丨北京数字人企业达2805家、宁波工业元宇宙企业超百家、中国元宇宙公司被纳斯达克停牌

AI“唤醒”山西永乐宫，大空间技术再现壁画传奇

2024中国智能眼镜新品终极盘点：多维度看清全貌

报告丨《工业元宇宙应用评估体系》发布

借壳SPAC公司上市的中国元宇宙公司MultiMetaVerse被纳斯达克停牌

江西：突破2万亿元，推进“智慧医院”建设，强化元宇宙硬件支撑

元宇宙日报丨上海计划加强文旅元宇宙场景建设、脑机接口医疗应用规模达400亿美元

国内首例元宇宙技术应用于公园，促进中医药文化传播

春节成功申遗，《来自中国的世界非遗》MR交互大空间项目推出

周鸿祎谈AI：2025年是智能体之年分三大步骤六大方向

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉