NeurIPS 2024 | 大模型知识表示的“知识回路”假说，深入理解大模型的知识机理

创业 2024-12-11 08:23 北京

尽管大模型在常识理解、科学知识运用以及推理决策能力等方面展现出显著潜力，但仍存在如幻觉等知识偏差问题。这些问题引发了关于大模型知识表示、存储和处理机制的深入探讨：大模型的知识处理方式是否类似于人脑？其能力是否可能超越人类？
知识图谱通过符号化方式显式描绘实体与概念之间的关系，而语言模型则依赖神经网络和注意力机制隐式连接知识元素。以多跳推理为例，知识图谱提供可解释且可控的显式推理路径，而语言模型则通过隐含在参数空间中的注意力权重寻找答案，因而在解释性和可靠性方面存在不足。
为进一步探究大模型的知识处理机制，本文提出了“大模型知识表示的‘知识回路’（Knowledge Circuits）假说”。该假说认为，大模型在处理知识时，实体、概念和关系通过参数激活逐步构成闭合回路，从而为构建更可靠、可控且安全的大模型知识学习框架和方法提供新的思路。

论文题目：
Knowledge Circuits in Pretrained Transformers
论文链接：
https://arxiv.org/abs/2405.17969
代码链接：
https://github.com/zjunlp/KnowledgeCircuits
在线Demo：
http://knowledgecircuits.zjukg.cn/

一、引言

尽管大模型在常识、科学知识的理解及推理决策能力等方面已展示出较强的潜力，其仍面临幻觉等知识谬误问题，由此引发了一系列对大模型知识表示、存储和处理机理的深入探讨：大型模型的知识处理方式是否与人脑相似？其能力是否能超越人类？

知识图谱通过符号表示明确刻画实体和概念间的关系，而语言模型则依赖神经网络和注意力机制隐式关联知识元素。以多跳推理为例，知识图谱提供可解释、可控的显式路径，而语言模型在隐式参数空间中依赖注意力等权重找到答案，导致解释性和可靠性不足。

为深入理解大模型的知识机理，本文被提出大模型知识表示的“知识回路”（Knowledge Circuits）假说，认为大模型知识处理过程中的实体、概念和关系是通过参数激活逐步形成闭合回路，以助于发展更可靠、可控、安全的大模型知识学习架构和方法。

二、大模型的知识回路发现

回路的定义

“回路”是指在神经网络模型中执行特定任务的一个可解释子图。目前，语言模型主要采用 Transformer 架构，可将其视为一个有向无环图 G。每个 Transformer 层包含多头注意力机制和前馈神经网络（MLP），并且每一层都是一个多头注意力机制和一个前馈网络的组合。

考虑一个注意力头（位于第 l 层的第 j 个注意力头），它对前一层的残差流进行操作。设，其中 I 表示输入嵌入，注意力头可被视为处理所有前层注意力头和 MLP 及输入嵌入的累积输出。

同样，MLP 节点处理所有前层的注意力头、MLP 和输入嵌入的累积输出，输出节点 O 则处理输入嵌入和所有注意力头及 MLP 的输出。Transformer 模型中的残差连接可以用以下公式表示：

我们专注于回答事实上的开放领域问题的任务，目标是预测给定主题-关系对（s, r）的目标实体 o。知识三元组 k = (s, r, o) 通常以自然语言提示的形式呈现给模型，用于下一个标记预测（例如，“法国的官方语言是____”）。

在回路的构建中，对于原始模型中的计算图的每一条边，我们计算了从计算图中删除该边后，语言模型预测 o 的 Logits 与移除之前的差异，如果对于预测性能影响在 Threshold 以内，则可以认为该边对于存储该知识并没有贡献，则去除该边，经过遍历后，我们则可以获得最终的知识回路。

在得到了知识回路后，我们该如何确保构建了准确的回路呢？这里，被发现的知识回路应该是 Transformer 知识存储中特定区域的准确表示，因此，它应该能够独立地表示知识。

为了验证构建的知识回路是否准确，我们使用验证数据集构建特定类型的知识回路，并在测试集上测试其性能。通过比较与原模型的性能变化，使用 Hit@10 指标评估目标实体 o 在前十个预测标记中的排名。

实验结果显示，构建的知识回路保留了语言模型大部分的能力，并在某些知识类型上有所提升，表明知识回路主要负责知识存储，避免了其他信息的干扰。

三、知识回路的分析

我们在知识回路中可以发现不同的类型的注意力头：Mover Head, Relation Head。Mover Head 会将相应位置信息的内容移动到模型的最后一个 Token 位置中，而 Relation Head 则会关注输入中的 Relation Token，在回路中提供关系相关的信息。

图中的例子中，经过分析不同层的输出后我们发现在 MLP 第 17 层之后，目标知识在信息流中作为 Top-one Token 出现，而在该层之后，其概率一直在增加。

从发现的回路中可以看出，连接到 MLP17 的边是（L14H13 -> MLP17），（L14H7 -> MLP17）和（L15H0 -> MLP17）。

在这里，L14H13 是一个 Relation Head，主要关注上下文中的关系令牌。这个头部的输出是与关系相关的标记，例如 Languages 和 language。

而注意头 L14H7 是一个 Mover Head，它将信息从主体的位置 France 移动到最后一个标记。最终，MLP17 集成了这些信息从而将最终结果 French 作为最终的 Top one 输出。

四、知识编辑情况下的知识回路的变化

“知识编辑”是近年来兴起的一项技术，旨在对语言模型中的特定知识进行精确修改。然而，当前的知识编辑方法存在一个普遍问题，那就是它们往往会对模型中的非编辑部分产生影响，即所谓的局部性不足。为了探讨这一问题，我们分析了知识编辑过程中知识回路的变化。

本研究中，我们选择了两种不同的编辑方法—— ROME 和 Fine-Tuning（FT），并在实验中均聚焦于 MLP 的第二个线性层进行编辑。通过具体案例的分析，我们观察到尽管 ROME 和 FT 都能有效地将新知识注入模型，但在知识回路层面，两种方法的工作机制有所不同。

对于像 ROME 这样的方法，我们注意到模型修改了称为 Mover Head 的组件的信息流动。编辑后，模型中的 Mover Head（如 L15H3）能够正确地提取出“Intel”这一信息，这意味着 ROME 是通过修改特定层的 MLP，使模型能够在最后一层 Token 的位置上获得正确的知识。

相比之下，FT 类方法似乎是在编辑层中就赋予了新知识较高的 Logit 值，这直接改变了模型对新知识的认知。这意味着在 FT 方法下，新知识在较早的编辑层中就已经具有较高的概率，从而影响了模型的最终输出。

然而，无论是 ROME 还是 FT，它们都未能完全避免对模型其他部分的影响。例如，在未经编辑的情况下，模型可以正确回答“创建 Windows Server 的公司”这一问题，但在经过知识编辑后，使用 ROME 和 FT 的模型都给出了错误的答案。

从知识回路的角度来看，编辑的信息似乎影响到了与之无关的知识回路，导致了意料之外的结果偏差。

五、幻觉与 In-Context Learning 情况下知识回路的现象

与此同时，我们还发现知识回路有助于理解语言模型中的幻觉现象以及 In-Context Learning（即情境学习，简称 ICL）的能力。

当知识回路中缺乏有效的 Mover Head，或者 Mover Head 选择了不正确的信息时，模型可能会产生幻觉。

例如，在提示 “The official currency of Malaysia is called the” 时，正确答案 “Ringgit” 和错误答案 “Malaysian” 在第 15 层之前的 rank 分布非常接近。然而，在第 16 层，Mover Head（L15H10）提取了 “Malaysian” 一词的信息，这导致模型最终输出了错误的答案。

而在 ICL 的场景中，我们的分析表明，相较于零样本学习（Zero-shot Learning），当加入示范示例（Demonstrations）时，知识回路中会出现一些新的注意力头。

如图中的案例所示，这些新的注意力头主要聚焦于示范示例的上下文中，例如 “The comparative of small is smaller”。这些注意力头的输出与任务的实际输出之间建立了紧密的联系，说明示范示例能够激活与任务相关的知识回路，从而提高模型的表现。

六、总结

在本文中，我们提出了大模型知识表示的“知识回路”假说，即稀疏的回路子图用来进行知识的存储、处理与表达。知识回路表明了语言模型的知识存储不仅仅是单独的模块，还存在着不同组件之间的协同合作。实验结果表明，知识回路不仅有助于我们更深入地理解模型的行为，还在构建更为稳健的知识编辑方法方面展现了巨大的潜力。

来源：公众号【PaperWeekly】

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

最新文章

WACV 2025 | 多任务学习提升Visual Anagram生成

华工、超级机器人研究院、琶洲实验室等单位联合发布首个室外无人机主动追踪基准

CAMEL AI 上海黑客松重磅来袭！快来尝试搭建你的第一个多智能体系统吧！

OmniSearch：开启O1范式的多模态动态检索新时代

Talk预告｜北京大学魏松林：基于扩散模型的双目视觉深度估计与恢复

NeurIPS 2024 | 大模型知识表示的“知识回路”假说，深入理解大模型的知识机理

Talk预告｜加州大学圣塔克鲁兹分校王泽宇：大规模视觉对抗训练

SIGGRAPH 2024 | 参考图像驱动的真实图像补全

高效重建几何精准的大规模复杂三维场景，中科院提出CityGaussianV2

EMNLP 2024 | 从知识图谱中习得大语言模型的规划能力

Talk预告｜上海交通大学周云松：SimGen - 仿真条件控制的自动驾驶场景生成

面向代码语言模型的安全性研究全新进展，南大&NTU联合发布全面综述

Talk预告｜无问芯穹算法研究员袁之航：高效视觉生成 - 减少冗余计算的探索研究

NeurIPS 2024 Spotlight | 如何操纵时间序列预测结果？BackTime：全新的时间序列后门攻击范式

将门月报 | 国汽智控完成A+轮融资、智谱携手华硕打造第一方入口级AI应用、文远知行在新加坡连获两款自动驾驶环卫产品许可证...

NeurIPS 2024 | 少样本学习中类别原型和图片样本之间的信息差异对于泛化性能的影响

EMNLP 2024 | 基于知识编辑的大模型敏感知识擦除

Talk预告｜清华大学张欣晨&北京大学曾博涵：基于扩散模型的复杂物理世界建模与优化

NeurIPS 2024 | 南科大、港科大等提出GITA，推进基于视觉语言模型的图推理

Talk预告｜卡内基梅隆大学刘士弘：LOV - 如何无参数有效优化视觉语言模型

AgentSense：基于多样化交互场景的智能体社交智能评测基准

Talk预告｜MBZUAI曾聪：DALD-无需黑盒信息增强LLM检测器

NeurIPS 2024 | WKM：增强智能体规划的世界知识模型

将门创新伙伴 | 2024 Honda Digital Day圆满落幕：深化创新合作，共塑智能未来

活动报名 | 第五届数据智能与知识服务研讨会（DIKS2024）：人工智能促进科研创新和产业变革

ECCV 2024 | 扩散模型持续跨界，UC伯克利等单位提出基于扩散模型的新数据挖掘工具

NeurIPS 2024 | 浸大、CMU提出全新框架COAT，用LLM探寻隐秘的因果世界

Talk预告｜NUS余昭辰&PKU张子翔：大模型推理与多模态扩散模型的协同作用

高效评估多模态预训练对齐质量，中科大提出模态融合率MIR

Talk预告｜澳门大学田春霖：小参数大作为，揭秘非对称LoRA架构的高效性能

NeurIPS 2024 | 解锁大模型知识记忆编辑的新路径

ECCV 2024 | 南洋理工人体动作生成新范式：统一多模态的动作生成大模型

NeurIPS 2024 | 类脑智能与黎曼图学习：黎曼脉冲神经元初探

Talk预告｜UT-Austin樊志文：端到端从多视角图片解析3D与全景3D生成

NeurIPS 2024 | 让大语言模型使用代码解决图分析推理任务

Talk预告｜中国科学院大学教授高林：高真实感三维建模与生成研究进展

活动报名 | 探秘自主机器人领域：19 位青年报告嘉宾集结，ARTS 2024研讨会震撼来袭！

MoA：混合稀疏注意力加速长文本生成，实现最高8倍吞吐率提升

Talk预告｜香港科技大学叶汉荣：X-VILA - 大语言模型的跨模态对齐

ECCV 2024 | 利用函数映射优化图像对应关系：零样本推理的新方法

Talk预告｜北京大学余旺博：探索视频扩散模型在3D生成和重建中的应用

EMNLP 2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

NeurIPS 2024 | 自监督湍流分析，减少99%标注数据需求

HazyDet：利用深度线索的雾天无人机目标检测开源基准

将门月报 | 文远知行正式登陆纳斯达克、智谱与中国三星宣布战略合作、帷幄与永旺在印尼达成紧密合作......

Talk预告｜香港中文大学汪福运：Rectified Diffusion - 一般扩散模型的ODE轨迹修正

ICML 2024 | 知识感知的强化学习优化的蛋白质定向进化方法

Talk预告｜西安电子科技大学曾泽群：CLIP是否有能力做零样本的图像描述生成？

NeurIPS 2024 | MoGU：用于增强模型安全性并保持其可用性的框架

将门创投早期项目「文远知行」正式在纳斯达克挂牌上市

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉