首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

大模型内部也有功能分区，MIT团队揭示其“大脑”结构

科技 2024-11-03 14:06 北京

AI 的“大脑”究竟长什么样？

近期，来自美国麻省理工学院的研究团队通过稀疏自编码器（SAE，Sparse Autoencoder）在大语言模型的激活空间中发现了大量可解释的向量点，这些向量点代表了模型所掌握的各种概念。

研究人员对这些概念空间（向量点）的结构进行了深入分析，从“原子”“大脑”“星系”三个不同的空间尺度揭示了其独特的几何特征。

这项研究的重要意义在于，它在试图搞清楚大模型是如何在内部组织知识的。研究成果以预印本的形式发表。

（来源：arXiv）

就像理解人类大脑结构帮助我们理解人类思维一样，分析模型内部的概念结构有助于我们理解人工智能是如何工作的。这些发现不仅有理论价值，也可能帮助我们设计出更好的语言模型。

在最微观的“原子”尺度上，研究发现概念空间中存在“晶体”结构。这些晶体几何结构代表的是语义关系（semantic relations），呈现出平行四边形或梯形的形态。

这种几何理解为词汇和语义赋予了拥有数学特征的向量空间。

更通俗的解释是，它们可以呈现出一种经典的概念（词）类比关系：女人-男人≈ 女王-国王。

从向量的角度来看，从“女人”到“男人”是性别的转换，就类似于从“女王”到“国王”。同理，从“女人”到“女王”，也类似于从“男人”到“国王”（皇室转换）。

图｜“女人-男人≈ 女王-国王”关系的向量图解（资料图）

研究团队发现，当消除词长等无关特征的干扰后，这种几何结构会变得更加清晰。

具体而言，研究团队首先计算了所有特征向量之间的成对差异，并对这些差异向量进行聚类。理论上，如果存在功能向量（如性别转换或身份提升），相关的差异向量应该形成聚类。

然而，研究者们发现了干扰特征的存在。例如，一些词汇的长度差异会导致几何结构的扭曲。

这一发现启发他们开发了更复杂的分析方法，通过线性判别分析（LDA，Linear Discriminant Analysis）将数据投影到排除干扰维度的低维空间中，可以显著提高这些晶体结构的质量。这表明，概念之间的语义关系确实存在系统性的几何对应。

在中观的“大脑”尺度上，研究发现概念空间具有显著的功能模块性。类似于生物大脑中的功能分区，相似功能的特征在空间上往往聚集在一起，形成“叶”状结构。

图｜识别出的 SAE 点云中的特征（这些特征往往一起触发）也被发现在几何上共位于功能“叶”中（来源：arXiv）

例如，数学和编程相关的特征会形成一个独立的“叶”，这与神经科学中通过功能磁共振成像观察到的大脑功能分区非常相似。

在研究方法上，团队使用了 The Pile 数据集进行实验。使用稀疏自编码器模型（Gemma-2-2b）处理了 10,000 个文档。

对于每 256 个标记的区块，他们记录了第 12 层中哪些稀疏自编码器（SAE）特征被激活。

他们还分析了每种文档类型中激活特征比例最高的脑叶，并创建直方图以可视化不同文档类型的激活模式。

研究者们采用多种统计方法验证了这种空间聚集现象的显著性，包括简单匹配系数、Jaccard 相似度、Dice 系数、重叠系数和 Phi 系数。

实验表明，Phi 系数能最准确地捕捉特征之间的功能关联，但所有方法均能在不同程度上展现出“脑叶”的形状。

他们发现，那些在文档中经常同时激活的特征，在几何空间中的距离也往往较近，这种空间局部性远超随机分布的预期。

图｜不同统计方法的对比（来源：arXiv）

为了量化这种功能模块的空间分布特征，研究团队开发了两种评估方法。

首先，他们进行了基于余弦相似度的空间聚类和基于特征共现的功能聚类，再把两者放在一起对比相互信息。由此可以得出功能结构与几何结构的“对应关系”。

其次，他们尝试用逻辑回归模型根据特征的几何位置预测其所属的功能模块。

实验结果表明，使 Phi 系数作为共现度量时，功能模块与几何结构的对应关系最为显著，其统计显著性远超随机基线。

简单来说，最终的结果是，研究人员发现相关的概念会聚集在一起形成功能区域，就像人类大脑中不同区域负责不同功能一样。

比如，跟数学和编程相关的概念会聚在一起形成一个区域，而处理日常对话的概念会聚在另一个区域。

这种功能分区的发现不仅证实了模型内部存在组织化的知识表示，还暗示了不同类型信息可能采用不同的编码方式。

在最宏观的“星系”尺度上，研究发现整个特征点云的分布并非各向同性，而是呈现出特殊的结构。

通过主成分分析发现，点云的协方差矩阵特征值呈现幂律衰减，且这种衰减在模型的中间层最为显著。

这意味着，概念空间在不同维度上的“宽度”并不均匀，而是遵循一定的统计规律。中间层较陡的幂律衰减可能暗示这些层在压缩信息、形成高级抽象表示方面发挥着重要作用。

图｜Gemma2-2b 第 12 层 SAE 特征的顶级 PCA 组件的 3D 点云可视化（来源：arXiv）

此外，研究还分析了点云的聚类熵，发现概念空间确实存在明显的聚类现象，特别是在模型的中间层。

这种聚类程度远高于各向同性高斯分布的预期，表明概念在特征空间中的分布具有复杂的内在结构。

研究者们使用 k-NN 方法估计了点云分布的熵，并与相同协方差矩阵的高斯分布进行对比，量化了不同层的聚类程度。

研究者最终发现，模型不同层的特征分布呈现出独特的模式。早期层和晚期层的熵值较高，这可能反映了这些层分别负责处理较为分散的低级特征和高度集中的任务相关特征。

而中间层较低的熵值则暗示这些层在概念抽象和信息整合方面发挥着重要作用。

这种层次化的组织结构可能是模型高效处理语言任务的关键机制之一。

总的来说，这项研究通过多尺度的几何分析，揭示了大语言模型内部概念表示的丰富结构。

这些新发现不仅加深了我们对模型工作机制的理解，提升了模型可解释性，也为未来改进模型架构和训练方法提供了有价值的启示。

参考资料：

https://arxiv.org/abs/2410.19750

运营/排版：何晨龙

01/ 哈佛团队开发类ChatGPT的AI病理模型，诊断19种类型癌症准确率近94%，为癌症诊疗提供新工具

02/ 动物模型血糖被控长达一天，浙大团队制备口服胰岛素制剂，小鼠连续给药7天未出现低血糖

03/ 可同时用于塑料降解与绿色制氢？科学家制备单原子铁催化剂，有望减少依赖传统化石燃料

04/ 科学家发现新型自由基聚合模式，开发功能化聚烯烃材料，或可突破扩链剂进口依赖

05/科学家打造复合催化剂，只需水和阳光就能将二氧化碳转化生成甲醇和一氧化碳，可用于废气处理领域

http://mp.weixin.qq.com/s?__biz=MzA3NTIyODUzNA==&mid=2649759261&idx=2&sn=17dc29b0c9579870d8d56720dccd4db6

DeepTech深科技

DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

最新文章

科学家开发无柱纯化高性能蛋白质制备方法，纯度达到98%，可用于研发酶制剂和诊断试剂

澳洲昆大团队研发新型聚合物吸附剂，短时间内实现超99%氟化污染物去除

蛋白质设计再突破！麻省理工团队利用人工智能与梯度优化开发新策略

在家就能查血：MIT开发微型硅光芯片血液检测系统

科学家研发“仿心脏”电极材料，促进离子流传输，解决钠离子电池离子传输动力学缓慢问题

亚马逊向Anthropic追投40亿美元，Anthropic将使用前者芯片训练AI模型

还原真实世界：MIT用“AI+物理模拟”为机器人打造虚拟训练场

诺奖得主联合创办，初创融资3000万美元，开发新型糖免疫疗法

打破传统蛋白质进化方法局限性：MIT团队设计新型蛋白质大模型，发现比自然界高效百倍的突变体

寻找定义未来的科技先锋丨2024年度“35岁以下科技创新35人”中国报名中

被迫剥离Chrome和安卓？谷歌或将迎来“至暗时刻”

初创公司Teleo完成千万美元融资，欲打造机器人行业“ChatGPT时刻”

艾伦研究所与华盛顿大学团队推出开源科研大模型OpenScholar，用小参数超越GPT-4o

北大校友发现新型神经元，能通过靶向激活快速抑制食欲，或促进司美格鲁肽类药物新发展

背靠英伟达的初创公司Enfabrica推出全球最快GPU网络接口控制器芯片，再获1.15亿美元融资

英国核聚变初创公司完成1.25亿美元融资，致力于开发新型反应堆

运动即药物：MIT揭示神经修复新机制

科学家提出“一锅法微流体制造”系统，制备多种复杂陶瓷微粒，能作为微机电系统的精密零件

成立仅半年，印度首家核聚变公司获种子前投资

北航团队提出全新偏好数据构建框架，助力大模型实现更全面的对齐效果

药物研发新突破！中国科大、哈佛等联合开发PocketGen模型，可高效生成蛋白质口袋

AI和量子：谁将主宰未来计算？

内部短路起火时间不到3秒，王朝阳院士团队揭示全固态金属锂电池安全隐患

斯坦福团队发现新型代谢化合物，可抑制食欲、减轻体重

科学家以树蛙皮肤为灵感研制大气水收集装置，每平方米产能超过60升/天，有望满足工业级用水需求

研究人员打造即插即用型框架，将多智能体强化学习引入大语言模型

哈工大团队开发高灵敏度检测设备，可同时实现多种疾病诊断

科学家从小行星挖掘出外太阳系的起源密码

人类首次月球原位资源利用测试项目定档，美国企业计划明年执行首次任务

孙学良院士团队开发双阴离子基钠超离子导体，打破传统固态电解质局限，为开发高性能全固态钠离子电池开辟新途径

这家公司打造1.25万电池充电站，可在地震或台风时提供备用发电

MIT绘制迄今为止最全面大脑皮层功能图

1人完全缓解，斯坦福团队利用CAR-T治疗胶质瘤，突破实体肿瘤限制

结合有机半导体薄膜与细菌人工光合作用，科学家制备人工生物叶片，具备自支撑与能量自给特性

清华校友研发分子编辑工具，为药物分子和材料分子的合成提供新策略

微软联手NASA开发“地球Copilot”，让浩瀚太空数据触手可及

AI导航测试：纽约街道闭路实验揭示生成式模型的薄弱点

生成式AI或在5年内产生数百万吨电子垃圾？科学家提出算力物质流方法，为AI可持续发展提供新视角

四成AI数据中心或陷入“用电荒”，全球能源格局面临重大挑战

首个机械量子比特问世，量子计算迎来“蒸汽朋克”时代

MIT科学家开发新模型能让疫苗更有效

科学家用AI打造离子电路，将成为电子电路的有力补充，可被用于人机交互领域

专访澳大姜颖：开发“BIND通用接口”技术，让柔性生物电子器件实现模块化组合，正联合企业落地转化

超越硅极限：纳米3D晶体管或成AI低功耗未来之钥

科学家提出基于大语言模型的智能体系统框架，促进对不同框架的统一理解

Cursor母公司Anysphere收购Supermaven，计划打造完全整合的AI开发平台

科学家开发新型点击化学反应，突破二硫键高效合成技术瓶颈，正探索将其用于骨修复和脊髓修复

用“飞轮效应”开启智能科学时代新篇章，火山引擎AI for Science研讨会与Bio-OS大赛圆满收官

CFS公司获美国能源部250万美元资助，即将公布首座核聚变发电站选址

天津大学开发类器官-脑机接口技术，为脑损伤修复带来新希望

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉