EMNLP 2024 | 从特征解耦角度重新审视单义神经元及其在对齐算法中的作用

创业科技 2024-10-18 08:23 北京

本文提出了一种单义性的新proxy，即基于特征解耦相关性的方法，并通过引入相应的正则项验证了proxy的有效性。该方法不仅提升了模型的单义性，还增强了其表示的敏感性，从而为模型的解释性和稳健性提供了新的视角。希望此研究能够激发更多关于模型可解释性与优化相结合的探索，并在表示学习领域带来更深刻和本质的发现。

论文题目：
Encourage or Inhibit Monosemanticity? Revisit Monosemanticity from a Feature Decorrelation Perspective
论文链接：
https://arxiv.org/abs/2406.17969v1

一、动机

随着大规模语言模型（LLMs）在自然语言处理（NLP）任务中取得了显著进展，对其内部工作机制的理解变得至关重要。近年来的研究逐渐将重点放在对模型基本单元的解释性上，尤其是神经元的单义性(monosemanticity)。所谓单义性神经元，是指那些专门与某一特定概念紧密相关的神经元，它们与输入特征形成一对一的映射，较容易被人类理解。这种一对一映射的特性使得单义性神经元在解释性和可理解性方面具有重要意义。

许多研究者通过稀疏自动编码器结合字典学习方法，在大语言模型中识别单义性问题[1][2]。然而，由于稀疏自动编码器的训练计算成本较高，以及生成解释时需要大量的人力。另外，尽管在单义性探测方面取得了一定成功，但关于单义性与LLMs模型容量（如稳健性和对齐能力）之间的关系，仍然存在争议。

近期有研究表明，减少单义性有助于提升模型在多任务处理中的表现，而其他研究则认为，单义性可以减少非正交特征的interference, 导致学到的特征重要性不高。因此，本文从特征解耦（feature correlation)相关的角度重新审视单义性问题，并提出通过特征解耦性相关正则化来进一步提升模型的单义性和能力。

二、方法

2.1 建立神经元单义性与特征解耦性的关联

为应对大规模检测单义性带来的挑战，并且定量地研究单义性对模型能力的影响，我们首先提出在理论层面上特征的解耦性可以作为单义一个近似[proxy]（Monosemanticity是神经元层面，而feature是指模型中间激活/向量化表示）。理论上的近似推导如下：

在一个线性的模型中，和是两个不同模型神经元权重。如果神经元是Monosemantic，则它们的correlation矩阵是一个对角阵 .

如果我们有和 , 则可以推导出

也就是说当神经元Monosemantic,特征也是正交/解耦的。

2.2 前期实验观察

我们通过实验观察monosemanticity与模型大小，与特征解耦性的关系。

(1) 模型单义性与模型大小之间无稳定关联

不同大小GPT2模型单义性

我们使用论文[3]中提出的单义性近似指标 , 其中都是transformer结构模型中 MLP中第一个线性矩阵的权重，去近似衡量不同GPT2的单义性。结果发现模型大小与单义性程度之间没有稳定关联，例如GPT2-neo（2.7B）的单义性比medium（335M），large（774M）都小。

（2） DPO提升神经元单义性与特征解耦性。

DPO训练之后，GPT2模型单义性变化

DPO训练之后，LLama模型特征解耦性变化

上图1显示经过direct preference optimisation （DPO）[3]之后，GPT2 模型神经元的单义性有所增长，尤其是在比较浅的层上。由于llama类的模型MLP层中没有b偏置，这个单义近似指标我们并没有在llama上测量。

上图2刻画了特征解耦性在llama2-hf-7b模型经过DPO之后的特征解耦性(1-不同特征之间的余弦相似性})。我们在三个不同属性的数据集上做DPO之后，发现模型特征的解耦性都有了明显的提升（虚线高于实线）。

总结：DPO处理过后的模型（优化模型），同时出现了神经元单义性和特征解耦性的提高，一是可以说明神经元单义性可能是更优模型的偏好二是，结合以上的理论分析，可以进一步说明单义性与解耦性的positive correlation。

2.3 特征正交正则项

基于以上的分析，我们提出用特征解耦/正交的正则项来提高模型的单义性和能力。

其中是特征/激活值，是identity矩阵。加入该正则项到training loss中是为了最小化特征相关矩阵与单位矩阵之间，达到进一步解耦。

三、实验结果

3.1 实验设置

我们选择了三个llama系列的模型,Llama2-7b-hf, Llama2-7b-chat-hf以及Llama3-8b-instruct。选择了三个含有不同属性attribute做alignment的小数据集，分别是detoxicity[4]（去毒），cognition reframe[5]（认知转变）和Sycophancy[6]（谄媚）。我们采用GPT-3.5作为二分类器对这生成的句子做判断是否含有预期的属性。我们将特征解耦正则项加到DPO原有的训练目标上。

3.2 实验结果

3.2.1 特征解耦正则项能提升alignment效果

Table1. Alignment结果

我们对比了in-context learning, supervised fine tuning, DPO 以及SimDPO. 并且对比了另外一种用于特征稀疏化的正则项 .实验结果表明特征解耦正交项带来的增益最大。

3.2.2 特征解耦正则项improvement source是提高表达敏锐性，从而增加reward margin

Figure. 特征解耦正则项能增大reward margin

为了进一步探究解耦正则项带来的增益来源，我们更为细致地研究了DPO的原理和缺陷。

上行公式是DPO的优化目标，其中 , 分别是一对偏好和不偏好的回复。该公式建立Bradley-Terry模型中提出的用pointwise 奖赏来近似pairwise偏好。

其中是pointwise的奖赏函数。由于非线性激活的存在，即使很小，也可能造成近似到最大值1[7]。这样会导致的不好结果就是模型会“懒得”区分 ,也就是它们的表达很接近。而我们的特征解耦正则项刚好是用于增大特征特异性的，从上图红色实线/虚线均高于蓝线就可以看出这个效果。

3.2.3 特征解耦正则项带来的可解释性

我们将MLP中被激活最大的value vector投影到vocabulary空间，展示了模型各个层学到的concept。

Table. Llama2-7b-hf各层top value vectors对应的tokens

我们看到靠后的层更能激发monosemanticity. 在toxicity数据集中，激活的单词多数与暴力，伤害相关。在cognition的数据集中，激活的神经元大多数与人的情感/心里状态相关。

四、总结

本文提出了使用特征解耦相关作为单义性的新proxy，并通过这一正则项验证了这一proxy的有效性。该方法不仅能够提升模型的单义性，还能够增强模型表示的敏锐性，从而为模型的解释性和稳健性提供了新的视角。期待此类工作能够激发更多模型可解释性与优化的联合研究，并且从表示学习中得到更加深远和本质的发现。

参考文献

[1]Cunningham, Hoagy, et al. "Sparse autoencoders find highly interpretable features in language models." ICLR(2024).

[2]Elhage, et al., "Toy Models of Superposition", Transformer Circuits Thread, 2022.

[3]Rafailov, Rafael, et al. "Direct preference optimization: Your language model is secretly a reward model." NEURIPS (2024).

[4] Lee, Andrew et al. “A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO and Toxicity.” ICLR (2024).

[5]Sharma, Ashish et al. “Cognitive Reframing of Negative Thoughts through Human-Language Model Interaction.” ACL(2023).

[6] Perez, Ethan et al. “Discovering Language Model Behaviors with Model-Written Evaluations.” ACL (2023).

[7] Azar, Mohammad Gheshlaghi et al. “A General Theoretical Paradigm to Understand Learning from Human Preferences.” AISTATS (2023)

llustration From IconScout By Kawalan Studio

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650514458&idx=1&sn=1da925f48a442a10f1eee5825149213c

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

最新文章

Talk预告｜澳门大学田春霖：小参数大作为，揭秘非对称LoRA架构的高效性能

NeurIPS 2024 | 解锁大模型知识记忆编辑的新路径

ECCV 2024 | 南洋理工人体动作生成新范式：统一多模态的动作生成大模型

NeurIPS 2024 | 类脑智能与黎曼图学习：黎曼脉冲神经元初探

Talk预告｜UT-Austin樊志文：端到端从多视角图片解析3D与全景3D生成

NeurIPS 2024 | 让大语言模型使用代码解决图分析推理任务

Talk预告｜中国科学院大学教授高林：高真实感三维建模与生成研究进展

活动报名 | 探秘自主机器人领域：19 位青年报告嘉宾集结，ARTS 2024研讨会震撼来袭！

MoA：混合稀疏注意力加速长文本生成，实现最高8倍吞吐率提升

Talk预告｜香港科技大学叶汉荣：X-VILA - 大语言模型的跨模态对齐

ECCV 2024 | 利用函数映射优化图像对应关系：零样本推理的新方法

Talk预告｜北京大学余旺博：探索视频扩散模型在3D生成和重建中的应用

EMNLP 2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

NeurIPS 2024 | 自监督湍流分析，减少99%标注数据需求

HazyDet：利用深度线索的雾天无人机目标检测开源基准

将门月报 | 文远知行正式登陆纳斯达克、智谱与中国三星宣布战略合作、帷幄与永旺在印尼达成紧密合作......

Talk预告｜香港中文大学汪福运：Rectified Diffusion - 一般扩散模型的ODE轨迹修正

ICML 2024 | 知识感知的强化学习优化的蛋白质定向进化方法

Talk预告｜西安电子科技大学曾泽群：CLIP是否有能力做零样本的图像描述生成？

NeurIPS 2024 | MoGU：用于增强模型安全性并保持其可用性的框架

将门创投早期项目「文远知行」正式在纳斯达克挂牌上市

NeurIPS 2024 | AdaptiveDiffusion - 为每个prompt量身定制的扩散加速方案

ECCV 2024 | 推动纯视觉自动驾驶落地，单目三维检测实时泛化

Talk预告｜南开大学李政：视觉语言模型CLIP的提示学习方法研究

贝联珠贯完成Pre-A轮数千万元融资，将门创投领投

Talk预告｜香港中文大学邵昊：LMDrive - 大语言模型加持的闭环端到端自动驾驶框架

NeurIPS 2024 | VFIMamba：基于状态空间模型的视频插帧新SOTA

业内首个突破十亿参数的时序大模型，引领预测性能新高峰!

活动报名 | 将门横琴科技创新日暨人工智能加速器开业仪式

EMNLP 2024 | 从特征解耦角度重新审视单义神经元及其在对齐算法中的作用

图少样本学习综述：从元学习到预训练和提示学习

Talk预告｜香港科技大学高深远：构建通用可泛化的自动驾驶世界模型

NeurIPS 2024 | 结构信息原理指导的高效智能体探索

Talk预告｜香港中文大学王鸿儒：工具学习 - 杂谈 apple intelligence 和 o1 的异同

ICML 2024 | 论扩散模型采样轨迹的规律性及快速采样算法

ECCV 2024 | 研究残差及跳跃连接的可解释性，层相关性传播LRP在ResNet网络中的适配

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

Talk预告｜香港科技大学黄华健：高写实三维数字化时代下的在线同时定位和建图

CoRL 2024 | InstructNav：通用指令导航大模型系统

Talk预告｜普渡大学倪瑞祺：基于物理信息机器学习的运动规划

ICLR 2024 | BioBridge：通过知识图谱桥接生物医学基础模型

将门月报 | 格灵深瞳携手北京铁路局、文远知行与Uber达成战略合作、帷幄与华为云建立战略合作伙伴关系......

清华、北大等发布Self-Play强化学习最新综述

ECCV 2024 | 代码开源&方法简单，探索基于相机RAW图像的High-level视觉任务：RAW-Adapter

ICML 2024 | 从拓扑视角出发，10行代码提升类别不平衡图节点分类

Talk预告｜慕尼黑工业大学翟光耀：SG-Bot - 基于场景图生成式模型的机械臂操作和物体重排

300篇文献！大模型走向物理世界：TeleAI发布大模型驱动的具身智能综述

Talk预告｜北京航空航天大学阮受炜：探索视觉感知的3D视角鲁棒性

ECCV 2024 | EchoScene：通过场景图扩散生成3D室内场景

一张图搞定3D视效！深度解读北大、港中文、腾讯等联合开源项目ViewCrafter

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉