仅一行代码,使LLaMA3在知识编辑任务上表现暴涨35%!您确定不来试试嘛?

文摘   2024-10-20 10:00   意大利  

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!


引言

LLMs常因错误/过时知识产生幻觉,而基于新知识微调耗时且易过拟合、引入额外的知识库或参数模块又会带来不断增加的存储空间压力。因此,基于“Locate-then-Edit”的知识编辑(如ROME)被提出,用“少时间成本、零空间成本”来精准更新特定知识。在此基础上,中科大LDS Lab提出AlphaEdit,仅需在主流编辑方法中加入一行代码,便可暴涨LLaMA3在序列知识编辑任务上的表现,如下图。



图1:各类模型编辑方法在 LLaMA3(8B)上的表现。星号上标用于区别Counterfact数据集和 ZsRE 数据集。SST、RTE 和 CoLA 评估了编辑后模型的通用能力。


相关论文:


AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models


论文链接:https://arxiv.org/abs/2410.02355

代码链接:https://github.com/jianghoucheng/AlphaEdit


Neuron-Level Sequential Editing for Large Language Models


论文链接:https://arxiv.org/pdf/2410.04045

代码链接:https://github.com/jianghoucheng/NSE


目录:1. 背景介绍  2. AlphaEdit  3. NSE


1.背景介绍





图2:当前方法与AlphaEdit的对比


2. AlphaEdit



图3:AlphaEdit是如何通过一行代码实现效果激增的。



表1:各方法在编辑效果上的对比。


图4:各方法在模型通用能力上的对比。


3.NSE



此外,该团队提出的NSE从另一个角度:权重更新方式的角度尝试对序列编辑的效果进行优化。具体而言, NSE通过排序关键层中的神经元激活,选择性地收集“有影响力的神经元”来更新权重,而不是像以往的方法那样更新所有关键层的权重。这种选择性修改最大限度地保护了模型功能不被削弱。另外,对于包含大量神经元的大规模LLM,NSE引入了多层迭代编辑,以简化神经元选择过程,使其能够在单次编辑中有效地完成大规模知识更新。NSE从权重更新方式的角度,通过每次更新部分神经元来缓解持续知识编辑过程中的参数更新冲突和累计变化异常问题,其包括三个步骤:


步骤1:基于权重回溯的值向量计算

步骤2:神经元级别权重更新

步骤3:迭代多层编辑


非常推荐对序列编辑感兴趣的读者去阅读NSE的原文:https://arxiv.org/pdf/2410.04045。再次感谢大家的关注!


图 5:NSE流程图。(a)权重回溯, (b)神经元粒度权重更新,(c) 迭代编辑。


[1] Model editing harms general abilities of large language models: Regularization to the rescue.

[2] Perturbation-restrained sequential model editing.

[3] Training networks in null space of feature covariance for continual learning.  CVPR 2021


往期精彩文章推荐


论文解读 | ECCV2024 AutoEval-Video:一个用于评估大型视觉-语言模型在开放式视频问答中的自动基准测试



 关于AI TIME 


AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。


迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。

 

我知道你

在看


提出观点,表达想法,欢迎

留言


点击 阅读原文 查看更多!

AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
 最新文章