AI导航测试：纽约街道闭路实验揭示生成式模型的薄弱点

科技 2024-11-16 16:37 北京

来源：MIT News | 图注：“如果我们希望利用这些技术进行新的发现，大型语言模型是否是建立在连贯的世界模型之上的是一个非常重要的问题。”Ashesh Rambachan 说。图片由 iStock 提供

尽管大型语言模型（LLMs）可以完成令人印象深刻的任务，比如写诗或生成可行的计算机程序，这些模型的训练目标却只是预测文本中下一步可能出现的单词。

这种令人惊讶的能力让人感觉这些模型可能隐约学到了一些关于世界的通用真理。

但一项新的研究表明，事实并非如此。研究人员发现，一种常见的生成式 AI 模型可以在纽约市提供接近完美准确性的逐步驾驶路线，但实际上并没有形成准确的城市地图。

尽管该模型在导航方面表现得极为出色，当研究人员关闭了一些街道并添加了绕行路线后，其表现迅速下降。

深入分析后，研究人员发现，该模型隐含生成的纽约地图包含许多不存在的街道，这些街道以弯曲的形态连接了远离网格的交叉路口。

这一现象对生成式 AI 模型在现实世界中的应用可能产生严重影响，因为一个在特定环境中表现良好的模型，在任务或环境稍有改变时可能会崩溃。

“我们曾希望，既然 LLMs 可以在语言任务中完成这些惊人的事情，也许我们可以将这些工具应用于科学的其他领域。但如果想用这些技术进行新发现，弄清楚 LLMs 是否正在学习连贯的世界模型是非常重要的问题。”研究资深作者、MIT 经济学助理教授以及 MIT 信息与决策系统实验室（LIDS）的主要研究人员 AsheshRambachan 说道。

这篇论文的第一作者是哈佛大学博士后 KeyonVafa，其他合作者包括MIT电气工程与计算机科学（EECS）研究生 JustinY.Chen，康奈尔大学计算机科学与信息科学教授 JonKleinberg，以及 MIT EECS 与经济学教授 SendhilMullainathan（LIDS 成员）。研究成果将在神经信息处理系统会议 NeurIPS 上发表。

新评估指标

研究人员将重点放在一种被称为 Transformer 的生成式 AI 模型上，它是 GPT-4 等大型语言模型的核心技术。Transformers 通过训练大量语言数据来预测序列中的下一个标记（如句子中的下一个单词）。

但研究人员指出，如果科学家希望判断 LLMs 是否形成了一个准确的世界模型，仅测量其预测的准确性还远远不够。

例如，研究发现，Transformer 几乎每次都能预测出四子棋（Connect 4）的有效棋步，但实际上并不了解游戏规则。

因此，研究团队开发了两个新指标，以测试 Transformer 的世界模型。研究重点围绕一个被称为确定性有限自动机（DFA）的问题类别展开。

DFA 是一类具有状态序列的问题，例如到达目的地时必须经过的交叉路口，以及沿途需要遵循的明确规则。

研究团队选择了两个 DFA 问题：纽约市街道导航和奥赛罗（Othello）棋盘游戏。

“我们需要一个测试环境，其中我们明确知道世界模型是什么。这样我们才能严格地思考恢复这些世界模型的含义。”Vafa 解释道。

第一个新指标“序列区分度”测试模型是否能够辨别两种不同的状态（如两个不同的奥赛罗棋盘）及其差异。Transformer 使用有序的数据点列表（序列）来生成输出。

第二个新指标“序列压缩度”测试一个具有连贯世界模型的 Transformer 是否能识别两个相同状态（如两个相同的奥赛罗棋盘）具有相同的下一步可能性序列。

研究人员使用这些指标测试了两类常见 Transformer 模型：一种在随机生成的序列数据上训练，另一种则在通过策略生成的数据上训练。

不连贯的世界模型

令人惊讶的是，研究发现随机选择的 Transformer 模型比使用策略训练的模型生成了更准确的世界模型，可能是因为前者在训练中看到了更多潜在的下一步选择。

“在奥赛罗中，如果你观察两个随机计算机对战，而不是冠军玩家对战，理论上你会看到所有可能的棋步，包括那些冠军玩家不会选择的错误棋步。”Vafa 解释道。

尽管这些 Transformer 模型几乎总是能生成准确的导航方向和有效的奥赛罗棋步，但新指标显示，仅有一个模型为奥赛罗棋步生成了连贯的世界模型，而没有一个模型在导航问题上表现良好。

研究人员通过在纽约市地图中添加绕行路线进一步验证了这一点，这导致所有导航模型均失效。

“让我惊讶的是，一旦我们添加了绕行路线，模型的表现下降得如此迅速。如果我们关闭 1% 的可能街道，准确率会从接近 100% 迅速下降到 67%。”Vafa 表示。

当研究人员恢复这些模型生成的城市地图时，发现它们更像是一个想象中的纽约市地图，上面有数百条街道交错分布，有些街道甚至悬浮于其他街道之上，或者呈现出不可能的方向。

这些结果表明，尽管 Transformer 模型在某些任务中表现出色，但它们并未真正理解规则。如果科学家希望构建能够捕捉准确世界模型的 LLMs，需要采用不同的方法。

“我们常常看到这些模型做出令人印象深刻的事情，就以为它们一定理解了世界。我希望我们能让人们意识到这个问题需要仔细思考，我们不应该仅仅依靠直觉来得出结论。”Rambachan 说道。

未来，研究人员希望解决更多样化的问题，例如那些规则部分已知的问题。他们还计划将其评估指标应用于现实世界中的科学问题。

这项研究部分由哈佛数据科学计划、美国国家科学基金会研究生奖学金、Vannevar Bush 教授奖学金、Simons 合作基金以及 MacArthur 基金会资助。

原文链接：

https://news.mit.edu/2024/generative-ai-lacks-coherent-world-understanding-1105

http://mp.weixin.qq.com/s?__biz=MzA3NTIyODUzNA==&mid=2649760331&idx=4&sn=46e07e01eb74c06fbae1912f9cce06c0

DeepTech深科技

DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

澳洲昆大团队研发新型聚合物吸附剂，短时间内实现超99%氟化污染物去除

蛋白质设计再突破！麻省理工团队利用人工智能与梯度优化开发新策略

在家就能查血：MIT开发微型硅光芯片血液检测系统

科学家研发“仿心脏”电极材料，促进离子流传输，解决钠离子电池离子传输动力学缓慢问题

亚马逊向Anthropic追投40亿美元，Anthropic将使用前者芯片训练AI模型

还原真实世界：MIT用“AI+物理模拟”为机器人打造虚拟训练场

诺奖得主联合创办，初创融资3000万美元，开发新型糖免疫疗法

打破传统蛋白质进化方法局限性：MIT团队设计新型蛋白质大模型，发现比自然界高效百倍的突变体

寻找定义未来的科技先锋丨2024年度“35岁以下科技创新35人”中国报名中

被迫剥离Chrome和安卓？谷歌或将迎来“至暗时刻”

初创公司Teleo完成千万美元融资，欲打造机器人行业“ChatGPT时刻”

艾伦研究所与华盛顿大学团队推出开源科研大模型OpenScholar，用小参数超越GPT-4o

北大校友发现新型神经元，能通过靶向激活快速抑制食欲，或促进司美格鲁肽类药物新发展

背靠英伟达的初创公司Enfabrica推出全球最快GPU网络接口控制器芯片，再获1.15亿美元融资

英国核聚变初创公司完成1.25亿美元融资，致力于开发新型反应堆

运动即药物：MIT揭示神经修复新机制

科学家提出“一锅法微流体制造”系统，制备多种复杂陶瓷微粒，能作为微机电系统的精密零件

成立仅半年，印度首家核聚变公司获种子前投资

北航团队提出全新偏好数据构建框架，助力大模型实现更全面的对齐效果

药物研发新突破！中国科大、哈佛等联合开发PocketGen模型，可高效生成蛋白质口袋

AI和量子：谁将主宰未来计算？

内部短路起火时间不到3秒，王朝阳院士团队揭示全固态金属锂电池安全隐患

斯坦福团队发现新型代谢化合物，可抑制食欲、减轻体重

科学家以树蛙皮肤为灵感研制大气水收集装置，每平方米产能超过60升/天，有望满足工业级用水需求

研究人员打造即插即用型框架，将多智能体强化学习引入大语言模型

哈工大团队开发高灵敏度检测设备，可同时实现多种疾病诊断

科学家从小行星挖掘出外太阳系的起源密码

人类首次月球原位资源利用测试项目定档，美国企业计划明年执行首次任务

孙学良院士团队开发双阴离子基钠超离子导体，打破传统固态电解质局限，为开发高性能全固态钠离子电池开辟新途径

这家公司打造1.25万电池充电站，可在地震或台风时提供备用发电

MIT绘制迄今为止最全面大脑皮层功能图

1人完全缓解，斯坦福团队利用CAR-T治疗胶质瘤，突破实体肿瘤限制

结合有机半导体薄膜与细菌人工光合作用，科学家制备人工生物叶片，具备自支撑与能量自给特性

清华校友研发分子编辑工具，为药物分子和材料分子的合成提供新策略

微软联手NASA开发“地球Copilot”，让浩瀚太空数据触手可及

AI导航测试：纽约街道闭路实验揭示生成式模型的薄弱点

生成式AI或在5年内产生数百万吨电子垃圾？科学家提出算力物质流方法，为AI可持续发展提供新视角

四成AI数据中心或陷入“用电荒”，全球能源格局面临重大挑战

首个机械量子比特问世，量子计算迎来“蒸汽朋克”时代

MIT科学家开发新模型能让疫苗更有效

科学家用AI打造离子电路，将成为电子电路的有力补充，可被用于人机交互领域

专访澳大姜颖：开发“BIND通用接口”技术，让柔性生物电子器件实现模块化组合，正联合企业落地转化

超越硅极限：纳米3D晶体管或成AI低功耗未来之钥

科学家提出基于大语言模型的智能体系统框架，促进对不同框架的统一理解

Cursor母公司Anysphere收购Supermaven，计划打造完全整合的AI开发平台

科学家开发新型点击化学反应，突破二硫键高效合成技术瓶颈，正探索将其用于骨修复和脊髓修复

用“飞轮效应”开启智能科学时代新篇章，火山引擎AI for Science研讨会与Bio-OS大赛圆满收官

CFS公司获美国能源部250万美元资助，即将公布首座核聚变发电站选址

天津大学开发类器官-脑机接口技术，为脑损伤修复带来新希望

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉