EMNLP 2024 | 基于知识编辑的大模型敏感知识擦除

创业 2024-11-29 08:22 北京

大模型（LLMs）的训练数据中可能涉及敏感信息，例如个人隐私或受版权保护的内容，因此需要有效地移除这些知识。然而，直接从预训练数据中删除相关信息并重新训练模型，不仅成本高昂，还会带来巨大的计算开销。为了解决这一问题，敏感知识擦除技术应运而生，作为一种后训练阶段的解决方案，可高效移除模型参数中不适宜的知识。然而，目前的知识擦除评估方法难以区分敏感知识（如隐私、版权）与通用知识。
为此，本文提出了一个新的基准——Knowledge Unlearning with Differentiated Scope in LLMs（KnowUnDo），用于更精确地评估针对版权内容和用户隐私的知识擦除效果。同时，我们提出了一种名为MemFlex的新方法，通过利用梯度信息，精准定位并移除模型中的敏感知识。

论文题目：
To Forget or Not? Towards Practical Knowledge Unlearning for Large Language Models
论文链接：
https://arxiv.org/abs/2407.01920
代码链接：
https://github.com/zjunlp/KnowUnDo

一、引言

大模型（LLMs）的训练数据中可能包含敏感信息，例如个人隐私和受版权保护的内容，因此需要对这些知识进行有效擦除。然而，直接从预训练语料中移除相关数据并重新训练模型不仅成本高昂，且计算量巨大。为此，基于知识编辑的敏感知识擦除技术应运而生，作为一种后训练阶段的解决方案，可高效地清除模型参数中不适宜的知识。

现阶段的知识擦除评估范式难以区分敏感（如隐私、版权等）和通用知识。基于此，本文提出Knowledge Unlearning with Differentiated Scope in LLMs（KnowUnDo）基准，用于更细致地评估版权内容和用户隐私领域的知识擦除方法，同时提出MemFlex方法，利用梯度信息精确地定位和擦除敏感知识。

二、数据集

本数据集分为版权内容和用户隐私两部分。对于版权内容，从GoodReads网站“Best Books Ever”榜单选取代表性书籍，再依据美国版权法分别定义擦除和保留范围内的知识类型，结合书籍和知识类型利用GPT-4生成问题-答案对构建数据集；对于用户隐私，构建虚构作者信息数据集，按照相关隐私法规把私人信息归为擦除范围知识，公共信息归为保留范围知识，同样使用GPT-4生成相应问题-答案对。同时，还确定了评估指标，擦除评估包括擦除成功率、保留成功率、困惑度和ROUGE-L，通用任务性能评估使用MMLU、ARC Challenge、TruthfulQA和SIQA等数据集来评估模型在知识理解、真实性和知识推理等通用任务上的性能。

三、方法

MemFlex方法受到知识编辑中的知识定位以及利用梯度信息提高定位精度相关研究的启发。其核心是通过分析梯度信息来确定模型参数空间中的擦除范围（Unlearn Scope）和保留范围（Retention Scope），然后在擦除阶段仅对擦除范围内的参数进行更新。以下是具体步骤：

确定擦除和保留梯度矩阵

对于擦除范围内的知识：

给定其中（表示擦除数据集），将标签替换为随机标签形成的。

通过反向传播获取梯度信息

重复上述随机替换和反向传播过程五次，取平均值得到稳定的擦除梯度矩阵。

对于保留范围内的知识，采用类似的过程，将属于保留数据集中的数据进行处理，得到保留梯度矩阵。

分析梯度矩阵

通过对梯度矩阵进行L2正则化，得到梯度信息的两个构成要素：方向和大小。计算擦除和保留梯度矩阵之间的余弦相似度，如果方向相似度高，表示在擦除过程中会对保留知识产生干扰。同时考虑梯度的大小，如果擦除知识的梯度大小{ul},g_{rl}>较大，则表示这些参数需要较大的更新。{ul},g_{rl}>{ul},g_{rl}>{ul},g_{rl}>

识别知识擦除关键区域

通过综合考虑方向和大小，设置阈值（如μ 和）来识别参数区域。满足的参数区域被确定为关键擦除区域，这些区域的梯度方向对于擦除知识与保留知识有明显差异，且梯度大小显著。

参数更新

在擦除阶段，仅更新关键擦除区域的参数即将原始模型参数中的部分按照以下方式更新：，其中表示在第个时间步模型所有模块的参数。

四、实验

实验结果表明，在用户隐私领域，GA和随机标签微调虽能擦除敏感知识却未能保留通用知识，对抗样本擦除方法虽保持通用知识和低困惑度，但没有很好擦除敏感知识，梯度上升和下降组合方法在区分范围和通用任务性能上有一定表现，MemFlex在保留知识方面取得最佳平衡；在效率方面，MemFlex通过在擦除范围内更新参数提高了擦除性能和效率。

五、分析

知识定位分析：MemFlex通过冻结与保留知识对齐的关键参数区域来保留整体性能，而其他方法由于过度更新参数导致整体性能下降，以至于重新在保留知识上学习也难以恢复。‍

知识擦除的鲁棒性分析：我们通过在问题前拼接简单的提示检验知识擦除的鲁棒性，可以发现相比于GA类方法的明显下降，MemFlex具有较高的稳定性。同时，使用RoBERTa分类器区分擦除范围时，在添加简单的提示后擦除成功率下降，表明分类器缺乏鲁棒性。

六、总结

在本论文中，我们基于知识编辑进行大模型隐私知识擦除，提出了新基准 KnowUnDo和新基线方法MemFlex，其通过定位再擦除，实现擦除敏感知识的同时通用知识。未来可以在以下几个方向改进：1) 保护多模态的版权内容和用户隐私（图像、视频、语音信息等）；2) 精细化定义需要擦除和保留的知识类型；3) 优化知识定位方法，实现更精准的知识擦除。

作者：田博中
来源：公众号【ZJUKG】

llustration From IconScout By IconScout Store

-The End-

本周上新！

扫码观看！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

最新文章

WACV 2025 | 多任务学习提升Visual Anagram生成

华工、超级机器人研究院、琶洲实验室等单位联合发布首个室外无人机主动追踪基准

CAMEL AI 上海黑客松重磅来袭！快来尝试搭建你的第一个多智能体系统吧！

OmniSearch：开启O1范式的多模态动态检索新时代

Talk预告｜北京大学魏松林：基于扩散模型的双目视觉深度估计与恢复

NeurIPS 2024 | 大模型知识表示的“知识回路”假说，深入理解大模型的知识机理

Talk预告｜加州大学圣塔克鲁兹分校王泽宇：大规模视觉对抗训练

SIGGRAPH 2024 | 参考图像驱动的真实图像补全

高效重建几何精准的大规模复杂三维场景，中科院提出CityGaussianV2

EMNLP 2024 | 从知识图谱中习得大语言模型的规划能力

Talk预告｜上海交通大学周云松：SimGen - 仿真条件控制的自动驾驶场景生成

面向代码语言模型的安全性研究全新进展，南大&NTU联合发布全面综述

Talk预告｜无问芯穹算法研究员袁之航：高效视觉生成 - 减少冗余计算的探索研究

NeurIPS 2024 Spotlight | 如何操纵时间序列预测结果？BackTime：全新的时间序列后门攻击范式

将门月报 | 国汽智控完成A+轮融资、智谱携手华硕打造第一方入口级AI应用、文远知行在新加坡连获两款自动驾驶环卫产品许可证...

NeurIPS 2024 | 少样本学习中类别原型和图片样本之间的信息差异对于泛化性能的影响

EMNLP 2024 | 基于知识编辑的大模型敏感知识擦除

Talk预告｜清华大学张欣晨&北京大学曾博涵：基于扩散模型的复杂物理世界建模与优化

NeurIPS 2024 | 南科大、港科大等提出GITA，推进基于视觉语言模型的图推理

Talk预告｜卡内基梅隆大学刘士弘：LOV - 如何无参数有效优化视觉语言模型

AgentSense：基于多样化交互场景的智能体社交智能评测基准

Talk预告｜MBZUAI曾聪：DALD-无需黑盒信息增强LLM检测器

NeurIPS 2024 | WKM：增强智能体规划的世界知识模型

将门创新伙伴 | 2024 Honda Digital Day圆满落幕：深化创新合作，共塑智能未来

活动报名 | 第五届数据智能与知识服务研讨会（DIKS2024）：人工智能促进科研创新和产业变革

ECCV 2024 | 扩散模型持续跨界，UC伯克利等单位提出基于扩散模型的新数据挖掘工具

NeurIPS 2024 | 浸大、CMU提出全新框架COAT，用LLM探寻隐秘的因果世界

Talk预告｜NUS余昭辰&PKU张子翔：大模型推理与多模态扩散模型的协同作用

高效评估多模态预训练对齐质量，中科大提出模态融合率MIR

Talk预告｜澳门大学田春霖：小参数大作为，揭秘非对称LoRA架构的高效性能

NeurIPS 2024 | 解锁大模型知识记忆编辑的新路径

ECCV 2024 | 南洋理工人体动作生成新范式：统一多模态的动作生成大模型

NeurIPS 2024 | 类脑智能与黎曼图学习：黎曼脉冲神经元初探

Talk预告｜UT-Austin樊志文：端到端从多视角图片解析3D与全景3D生成

NeurIPS 2024 | 让大语言模型使用代码解决图分析推理任务

Talk预告｜中国科学院大学教授高林：高真实感三维建模与生成研究进展

活动报名 | 探秘自主机器人领域：19 位青年报告嘉宾集结，ARTS 2024研讨会震撼来袭！

MoA：混合稀疏注意力加速长文本生成，实现最高8倍吞吐率提升

Talk预告｜香港科技大学叶汉荣：X-VILA - 大语言模型的跨模态对齐

ECCV 2024 | 利用函数映射优化图像对应关系：零样本推理的新方法

Talk预告｜北京大学余旺博：探索视频扩散模型在3D生成和重建中的应用

EMNLP 2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

NeurIPS 2024 | 自监督湍流分析，减少99%标注数据需求

HazyDet：利用深度线索的雾天无人机目标检测开源基准

将门月报 | 文远知行正式登陆纳斯达克、智谱与中国三星宣布战略合作、帷幄与永旺在印尼达成紧密合作......

Talk预告｜香港中文大学汪福运：Rectified Diffusion - 一般扩散模型的ODE轨迹修正

ICML 2024 | 知识感知的强化学习优化的蛋白质定向进化方法

Talk预告｜西安电子科技大学曾泽群：CLIP是否有能力做零样本的图像描述生成？

NeurIPS 2024 | MoGU：用于增强模型安全性并保持其可用性的框架

将门创投早期项目「文远知行」正式在纳斯达克挂牌上市

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉