研究人员提出模糊推理基准“青蛙”，助力理解大模型推理机制

科技 2024-12-03 17:50 北京

对于 GPT-4 和 Claude-3.5 等大模型来说，它们已经给人类的生产生活带来了极大帮助。同时，也给这些大模型的能力上限留下了广阔的想象空间：即大模型究竟能完成多有挑战性的任务？

对于大模型能力一个直观的评估纬度便是推理能力。当前，对于推理能力的评估主要集中在精确推理，例如形式较为规范的数学推理和代码推理。

对于日常生活中广泛存在的含有模糊或不精确信息的推理问题当前的模型涉猎不足，例如“桌上有十个苹果，我拿走了一些，此时桌上还剩下多少苹果？”。

其中，一些（some）“大部分（most）”等通用量词（Generalized quantifier，以下简称“量词”）是一种常见的模糊表述方式。其特征是量词的强度通常是不精确的，例如“大部分”表示为一个超过一半的数量。

先前的工作曾通过引入模糊逻辑等方式，对于量词的强度进行建模。但是，这种方式往往基于少量数据并结合启发式的方法，无法拓展到解决复杂的具有现实意义的模糊推理问题。

基于这种研究现状，美国北卡罗来纳大学博士生李逸远和所在团队推出了首个基于现实数学问题的模糊推理基准“青蛙”（FRoG: Fuzzy Reasoning of Generalized Quantifiers）[1]。

图 | 李逸远（来源：李逸远）

日前，相关论文以《FROG：大语言模型中广义量词模糊推理的评估》（FROG：Evaluating Fuzzy Reasoning of Generalized Quantifiers in Large Language Models）为题发在 EMNLP（Empirical Methods in Natural Language Processing） 2024[1]。

李逸远是第一作者，上海交通大学刘鹏飞副教授担任通讯作者。

图 | 相关论文（来源：arXiv）

对于“青蛙”榜单来说，它通过将量词与来自小学数学问题集 GSM8K[2] 和留学研究生入学考试（GRE，Graduate Record Examination）以及经企管理研究生入学考试（GMAT，Graduate Management Admission Test）难度数学题的 MathQA[3] 中的问题相结合，构造出能被用于评测大模型模糊推理能力的问题。

通过对市面上比较常用的十几类大模型进行评测，课题组发现大模型在“青蛙”的模糊推理问题上展现出和精确推理不同的行为模式：

首先，一些常用的用于增强大模型推理能力的方法，例如对于数学或代码方面的专项训练或是一些对齐手段，对于提升模型的模糊推理能力并没有展现出一致的有效性。

图 | 模型对齐前后在“青蛙”上的性能（来源：arXiv）

其次，在大模型的发展中，人们的一个重要发现便是规模定律（Scaling Law）[4]，即模型的测试损失与模型的训练数据量、参数量呈现相关关系，越大的训练数据和模型参数规模，往往带来更好的模型性能。因而扩大模型参数成为提升下游任务性能的一种常见手段。

而该团队观察到在“青蛙”上超过半数评测的大模型出现 inverse scaling effect（即随着模型参数量上升，任务性能反而下降）。

再次，对于“青蛙”中的问题，他们构造了保留问题形式和内容，但不包含量词的精准推理集作为模型性能下降的对比。

他们观察到模型在精确推理的场景下往往性能较优，并且遵循 scaling law，但是在模糊推理的场景下表现比较一般。

例如，Meta 发布的 Llama3-70B-Instruct 模型在精确推理场景下正确率可以超过 60%，但在模糊推理场景下正确率下降到不足 30%。

这说明对于提升模糊推理来说，或许不能简单地照搬在研究精确推理中得出的方法和结论，也说明领域内对于模糊推理的研究依旧处于方兴未艾的状态。

李逸远表示，一开始着手研究模糊推理问题的时候，他们发现首先需要一个评测榜单，只有这样才能了解到当前大模型模糊推理能力的现状。

与数学推理不同的是，对于如何完成模糊推理问题，目前尚没有广为接受的形式和定义。

因此他们所面临的第一个难点是：如何获取可用于模糊推理的推理数据。

虽然互联网上有着海量的语料，但是直接从中识别带有推理结果的模糊推理问题非常有挑战性。于是他们决定从改造现有的数学问题入手。

另一个问题是如何在推理问题中加入模糊信息，这涉及到首先对于模糊信息进行一定程度的量化。

为此，他们选择基于之前对于量词强度的研究 [6]，以量词表达式的形式在数学推理中添加模糊信息。

同时，由于加入了模糊信息，导致推理的结果可能是不够精确的，那么应该用什么样的方式评测模糊推理能力？经过考虑之后，他们决定采用多项选择题的形式消解结果中的不确定性，通过让模型选择与结果最相近的量词选项评估其表现。

在模型评测的过程中他们发现了 inverse scaling effect，这时他们开始思考：大模型是如何进行模糊推理的，该如何直观地展现这个过程？

他们围绕过往用于增强模型推理能力的途径，来探寻这些途径是否对于模糊推理起到了帮助。

通过观察大模型的推理结果，发现了大模型不同于精准推理的推理方式，例如模型在思维链 [5] 的形式下如何对模糊的信息进行评估和分析。

图 | 模型进行模糊推理的样例（来源：arXiv）

该项研究，在探寻和提升模型推理能力方面有着应用前景，例如：

一方面，当大模型的应用场景从现实世界完整抽象出具体知识的推理问题（例如数学和编程问题）扩展到需要基于对于现实世界理解的推理问题时，预计本次成果将能帮助理解大模型具体的推理机制。同时，这一评测基准也为进一步全面提升模型的推理能力提供参考。

另一方面，通过对于模糊推理问题的研究，他们希望本次成果能为构建更加广阔的推理场景中的数据带来一定的启发。同时，对推理过程的引导（例如思维链）对于大模型推理能力非常重要。

对于模糊推理等复杂且推理过程难以形式化的问题，之前模型不能进行高质量的推理，所以该团队希望本次成果能够吸引人们关注对于这些问题推理过程的诱导。

后续，课题组还希望能够围绕如何建立用于提升模糊推理的训练方法, 如何让模型在推理中处理不能进行完全符号化运算的信息展开研究，也希望能够继续完善对于这类推理问题的评测手段。

参考资料：

1.Yiyuan Li, Shichao Sun, Pengfei Liu. 2024. FRoG: Evaluating Fuzzy Reasoning of Generalized Quantifiers in Large Language Models. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, pages 7239-7256, Miami, Florida, USA. Association for Computational Linguistics.arxiv.org/abs/2407.01046

2.Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, and John Schulman. 2021. Training verifiers to solve math word problems.arxiv.org/abs/2110.14168

3.Aida Amini, Saadia Gabriel, Shanchuan Lin, Rik Koncel-Kedziorski, Yejin Choi, and Hannaneh Hajishirzi. 2019. MathQA: Towards interpretable math word problem solving with operation-based formalisms. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 2357–2367. aclanthology.org/N19-1245/

4.Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. 2020. Scaling laws for neural language models. Preprint,arxiv.org/abs/2001.08361

5.Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, brian ichter, Fei Xia, Ed H. Chi, Quoc V Le, and Denny Zhou. 2022. Chain of thought prompting elicits reasoning in large language models. In Advances in Neural Information Processing Systems.https://openreview.net/forum?id=_VjQlMeSB_J

6.Yiyuan Li, Rakesh Menon, Sayan Ghosh, and Shashank Srivastava. 2023. Pragmatic reasoning unlocks quantifier semantics for foundation models. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pages 573–591, Singapore. Association for Computational Linguistics. arxiv.org/abs/2311.04659

运营/排版：何晨龙

01/ 科学家开发新型多光子显微镜，可实现大脑最深层皮层的大视野成像，定制组件已实现商品化

02/ 科学家研发全天候AI声呐分析系统，平均精度比当前最先进的方法提高9.5%，已成功完成实地部署

03/ 中德联合团队揭开长新冠刺突蛋白新机理，开发新型三维成像技术，将造福全球数百万长新冠后遗症患者

04/ 清华学者制备电磁超表面传感器，可用于车载环境的非接触生理传感，将联合汽车厂商推进落地

05/ 科学家将二氧化硅缺陷“变废为宝”，打造新型非易失性存储器，数据存储时间长达10年以上

DeepTech深科技

DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

研究人员提出模糊推理基准“青蛙”，助力理解大模型推理机制

科学家研发可穿戴超声传感器，可提供无创的连续性血压监测

微型化工厂：MIT衍生公司改造内燃机用废弃甲烷生产绿色燃料

李飞飞World Labs官宣新AI产品，一张图片生成交互式3D世界

科学家开发新型多光子显微镜，可实现大脑最深层皮层的大视野成像，定制组件已实现商品化

科学家开发深度学习方法DynamicBind，实现对复合物的动态结构预测

香港中文大学（深圳）数经院团队与中证报联合发布投顾大模型

价格大跌超50%，三星、铠侠计划减产NAND闪存

科学家研发全天候AI声呐分析系统，平均精度比当前最先进的方法提高9.5%，已成功完成实地部署

范德堡大学团队研发电化学离子分离平台，可用于提炼金属和能源转化

研究人员阐明语言模型在不同算术场景中的泛化机制，可指导大模型训练优化

胰岛素口服不是梦：无针胶囊正在改变药物递送方式

全球首个去中心化训练的10B级模型已正式开源，使用横跨三大洲的112块GPU训练而成

中德联合团队揭开长新冠刺突蛋白新机理，开发新型三维成像技术，将造福全球数百万长新冠后遗症患者

科学家研发微型变形机器人，在100毫秒内实现40%面积伸缩和定向运动

前硅谷工程师创办，合成生物学公司融资7300万美元，利用AI开发蛋白质工程

清华学者制备电磁超表面传感器，可用于车载环境的非接触生理传感，将联合汽车厂商推进落地

AI模拟人格技术新突破，两小时对话即可创造“数字分身”

LED亮度达116万尼特，浙大团队实现钙钛矿半导体可控p/n型掺杂

MIT开发高效算法大幅降低强化学习训练成本

科学家将二氧化硅缺陷“变废为宝”，打造新型非易失性存储器，数据存储时间长达10年以上

美国初创称将打造百万量子比特的光量子计算机，公司估值超过30亿美元

罗氏15亿美元收购了一家“现货型”细胞疗法开发商

量子计算新突破：MIT发现新型物质形态可构建量子比特

前Android副总裁开发AI Agent通用操作系统，已获5600万美元投资

科学家打造活性液滴系统，基于全新耗散组装系统，可用于打造液滴机器人与人工细胞模型

上交团队构建AI社会模拟器，数千智能体引领大模型自演进

基于全新技术框架与生成算法，AI初创公司解锁工业级3D AIGC

MIT揭秘无磁场条件下五层石墨烯中的电子“分身术”

西湖大学团队研发新型铝基跨尺度3D制造技术，极大提高结构材料加工尺度范围和精度

寻找亚太科技青年力量｜《麻省理工科技评论》“35岁以下科技创新35人”亚太区报名正在进行

Common Voice：用多语言数据打造包容性AI语音

初创公司研发新型减肥药，针对4个不同靶点，称融资金额高达数亿美元

SpaceX将执行核动力直升机“蜻蜓号”承载任务，前往土卫六探索生命存在的可能性

科学家开发高熵金属间化合物，法拉第效率达到95%，正联合业界开展催化剂放大实验

常德“科创·柳叶湖”合成生物制造创新创业大赛即将启幕

弹跳超过自身高度108倍，浙大团队开发双稳态软体弹跳机器人

打开AI黑箱：DeepMind开发的新工具可揭示大模型内部秘密

科学家开发无柱纯化高性能蛋白质制备方法，纯度达到98%，可用于研发酶制剂和诊断试剂

澳洲昆大团队研发新型聚合物吸附剂，短时间内实现超99%氟化污染物去除

蛋白质设计再突破！麻省理工团队利用人工智能与梯度优化开发新策略

在家就能查血：MIT开发微型硅光芯片血液检测系统

科学家研发“仿心脏”电极材料，促进离子流传输，解决钠离子电池离子传输动力学缓慢问题

亚马逊向Anthropic追投40亿美元，Anthropic将使用前者芯片训练AI模型

还原真实世界：MIT用“AI+物理模拟”为机器人打造虚拟训练场

诺奖得主联合创办，初创融资3000万美元，开发新型糖免疫疗法

打破传统蛋白质进化方法局限性：MIT团队设计新型蛋白质大模型，发现比自然界高效百倍的突变体

寻找定义未来的科技先锋丨2024年度“35岁以下科技创新35人”中国报名中

被迫剥离Chrome和安卓？谷歌或将迎来“至暗时刻”

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉