本文提出了一种单义性的新proxy,即基于特征解耦相关性的方法,并通过引入相应的正则项验证了proxy的有效性。该方法不仅提升了模型的单义性,还增强了其表示的敏感性,从而为模型的解释性和稳健性提供了新的视角。希望此研究能够激发更多关于模型可解释性与优化相结合的探索,并在表示学习领域带来更深刻和本质的发现。
本文提出了一种单义性的新proxy,即基于特征解耦相关性的方法,并通过引入相应的正则项验证了proxy的有效性。该方法不仅提升了模型的单义性,还增强了其表示的敏感性,从而为模型的解释性和稳健性提供了新的视角。希望此研究能够激发更多关于模型可解释性与优化相结合的探索,并在表示学习领域带来更深刻和本质的发现。
论文题目:
Encourage or Inhibit Monosemanticity? Revisit Monosemanticity from a Feature Decorrelation Perspective
论文链接:
https://arxiv.org/abs/2406.17969v1
一、动机
随着大规模语言模型(LLMs)在自然语言处理(NLP)任务中取得了显著进展,对其内部工作机制的理解变得至关重要。近年来的研究逐渐将重点放在对模型基本单元的解释性上,尤其是神经元的单义性(monosemanticity)。所谓单义性神经元,是指那些专门与某一特定概念紧密相关的神经元,它们与输入特征形成一对一的映射,较容易被人类理解。这种一对一映射的特性使得单义性神经元在解释性和可理解性方面具有重要意义。
许多研究者通过稀疏自动编码器结合字典学习方法,在大语言模型中识别单义性问题[1][2]。然而,由于稀疏自动编码器的训练计算成本较高,以及生成解释时需要大量的人力。另外,尽管在单义性探测方面取得了一定成功,但关于单义性与LLMs模型容量(如稳健性和对齐能力)之间的关系,仍然存在争议。
近期有研究表明,减少单义性有助于提升模型在多任务处理中的表现,而其他研究则认为,单义性可以减少非正交特征的interference, 导致学到的特征重要性不高。因此,本文从特征解耦(feature correlation)相关的角度重新审视单义性问题,并提出通过特征解耦性相关正则化来进一步提升模型的单义性和能力。
二、方法
2.1 建立神经元单义性与特征解耦性的关联
为应对大规模检测单义性带来的挑战,并且定量地研究单义性对模型能力的影响,我们首先提出在理论层面上特征的解耦性可以作为单义一个近似[proxy](Monosemanticity是神经元层面,而feature是指模型中间激活/向量化表示)。理论上的近似推导如下:
2.2 前期实验观察
(1) 模型单义性与模型大小之间无稳定关联
不同大小GPT2模型单义性
(2) DPO提升神经元单义性与特征解耦性。
DPO训练之后,GPT2模型单义性变化
DPO训练之后,LLama模型特征解耦性变化
2.3 特征正交正则项
基于以上的分析,我们提出用特征解耦/正交的正则项来提高模型的单义性和能力。
三、实验结果
3.1 实验设置
3.2 实验结果
3.2.1 特征解耦正则项能提升alignment效果
Table1. Alignment结果
3.2.2 特征解耦正则项improvement source是提高表达敏锐性,从而增加reward margin
Figure. 特征解耦正则项能增大reward margin
为了进一步探究解耦正则项带来的增益来源,我们更为细致地研究了DPO的原理和缺陷。
3.2.3 特征解耦正则项带来的可解释性
我们将MLP中被激活最大的value vector投影到vocabulary空间,展示了模型各个层学到的concept。
Table. Llama2-7b-hf各层top value vectors对应的tokens
四、总结
参考文献
[1]Cunningham, Hoagy, et al. "Sparse autoencoders find highly interpretable features in language models." ICLR(2024).
[2]Elhage, et al., "Toy Models of Superposition", Transformer Circuits Thread, 2022.
[3]Rafailov, Rafael, et al. "Direct preference optimization: Your language model is secretly a reward model." NEURIPS (2024).
[4] Lee, Andrew et al. “A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO and Toxicity.” ICLR (2024).
[5]Sharma, Ashish et al. “Cognitive Reframing of Negative Thoughts through Human-Language Model Interaction.” ACL(2023).
[6] Perez, Ethan et al. “Discovering Language Model Behaviors with Model-Written Evaluations.” ACL (2023).
[7] Azar, Mohammad Gheshlaghi et al. “A General Theoretical Paradigm to Understand Learning from Human Preferences.” AISTATS (2023)
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。