大模型(LLMs)的训练数据中可能涉及敏感信息,例如个人隐私或受版权保护的内容,因此需要有效地移除这些知识。然而,直接从预训练数据中删除相关信息并重新训练模型,不仅成本高昂,还会带来巨大的计算开销。为了解决这一问题,敏感知识擦除技术应运而生,作为一种后训练阶段的解决方案,可高效移除模型参数中不适宜的知识。然而,目前的知识擦除评估方法难以区分敏感知识(如隐私、版权)与通用知识。
为此,本文提出了一个新的基准——Knowledge Unlearning with Differentiated Scope in LLMs(KnowUnDo),用于更精确地评估针对版权内容和用户隐私的知识擦除效果。同时,我们提出了一种名为MemFlex的新方法,通过利用梯度信息,精准定位并移除模型中的敏感知识。
大模型(LLMs)的训练数据中可能涉及敏感信息,例如个人隐私或受版权保护的内容,因此需要有效地移除这些知识。然而,直接从预训练数据中删除相关信息并重新训练模型,不仅成本高昂,还会带来巨大的计算开销。为了解决这一问题,敏感知识擦除技术应运而生,作为一种后训练阶段的解决方案,可高效移除模型参数中不适宜的知识。然而,目前的知识擦除评估方法难以区分敏感知识(如隐私、版权)与通用知识。
为此,本文提出了一个新的基准——Knowledge Unlearning with Differentiated Scope in LLMs(KnowUnDo),用于更精确地评估针对版权内容和用户隐私的知识擦除效果。同时,我们提出了一种名为MemFlex的新方法,通过利用梯度信息,精准定位并移除模型中的敏感知识。
论文题目:
To Forget or Not? Towards Practical Knowledge Unlearning for Large Language Models
论文链接:
https://arxiv.org/abs/2407.01920
代码链接:
https://github.com/zjunlp/KnowUnDo
一、引言
二、数据集
三、方法
确定擦除和保留梯度矩阵
给定其中(表示擦除数据集),将标签替换为随机标签形成的。
分析梯度矩阵
识别知识擦除关键区域
参数更新
四、实验
五、分析
知识擦除的鲁棒性分析:我们通过在问题前拼接简单的提示检验知识擦除的鲁棒性,可以发现相比于GA类方法的明显下降,MemFlex具有较高的稳定性。同时,使用RoBERTa分类器区分擦除范围时,在添加简单的提示后擦除成功率下降,表明分类器缺乏鲁棒性。
六、总结
作者:田博中 来源:公众号【ZJUKG】
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。