Machine Unlearning 会是 Learning 的新机会吗？

科技 2025-01-29 09:30 浙江

本文来自往期 PRO会员通讯精选解读，文末关注「机器之心PRO会员」，查看更多专题解读。

在人工智能疾速发展，LLM 应用开始被广泛应用的当下，全球各国政府对 AI 治理投入了越来越多的精力。在近期多国政府出台的 AI 治理法案中，政府对数据安全、伦理、隐私保护，以及 AI 技术与版权、用户权益等方面的约束条款愈发清晰。在此趋势下，可以用于保护用户隐私数据的 Machine Unlearning 技术也在引起越来越多的关注。

01. 为什么需要关注 Unlearning？

Machine Unlearning 和监管政策有什么关系？Machine Unlearning 和 AI能力有什么关系？

02. 什么是 Machine Unlearning？

Machine Unlearning 有几种做法？Machine Unlearning 最初的用途是什么？

03. LLM 中的 Unlearning 有什么区别空间推理？

LLM 做 Unlearning会更难吗？LLM 公司能用 Unlearning 解决数据纠纷吗？Machine Unlearning 现在存在哪些局限？...

01 为什么需要关注 Unlearning？

1、在过去的十年中，数据量的大幅增加和硬件性能的快速提升推动了机器学习技术的快速发展。伴随近几年 LLM 模型的发展则进一步带来了对各类数据的需求和消耗。

2、伴随人工智能技术所需的数据量不断增加，许多国家最近立法实施「被遗忘的权利（Right to Forgotten）」。

① 」被遗忘的权利「中显著的例子是欧盟的通用数据保护条例（GDPR）、加拿大的个人信息保护与电子文件法（PIPEDA）隐私立法和美国的加州消费者隐私法案（CCPA）。

② 根据这些法律，公司必须采取合理措施保证在请求时删除个人数据。

③ 截至近期，联合国即将进入执行的《人工智能法案》和美国多个州政府最近的立法行动也对人工智能在用户隐私、版权等方面的提出规范。

4、在此趋势下，Machine Unlearning 技术受到越来越多的关注。

① 由于企业会利用用户数据训练模型。当用户行使「被遗忘的权利」，要求公司停止使用其数据，如果每次都要重新训练模型以响应用户的要求，将对企业造成巨大的开销和损失。

② 从技术层面看，Machine Unlearning 领域的研究不仅限于隐私保护，还包括分析不同数据对模型收敛时所贡献的梯度。这种分析有助于实现更精准的去学习，同时也能增强模型对噪声数据的检测能力（Noisy Data Detection）。

02 什么是 Machine Unlearning？

2024 年 5 月发布的综述《Machine Unlearning: A Comprehensive Survey》提供了对 Machine Unlearning 技术的全面概述。该工作采用 SLR 方法，通过设计搜索字符串、识别适当的数字数据库并定义数据提取策略，系统地回顾了现有 Machine Unlearning 方法，并讨论了在近期有关」被遗忘权利「立法对 Machine Unlearning 研究的影响......

关注👇🏻「机器之心PRO会员」，前往「收件箱」订阅，查看完整解读内容

更多往期专题解读内容，关注「机器之心PRO会员」服务号，点击菜单栏「收件箱」查看。

机器之心

专业的人工智能媒体和产业服务平台

不到24小时，开源版Deep Research疯狂来袭！一月少花1400

Go语言开发AI智能体有多丝滑？字节重磅开源Eino框架，内含保姆级教程

No More Next-Token Prediction?

字节跳动BitsAI-CR：基于LLM的代码审查系统技术揭秘

刚刚，OpenAI上线Deep Research！人类终极考试远超DeepSeek R1

多重可控插帧视频生成编辑，Adobe这个大一统模型做到了，效果惊艳

解放双手！OSCAR让操作系统交互实现自然语言「自由」

为什么让大模型理解「内外远近」更重要？

o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观

完整的671B MoE DeepSeek R1怎么塞进本地化部署？详尽教程大放送！

全面梳理200+篇前沿论文，视觉生成模型理解物理世界规律的通关密码，都在这篇综述里了！

通过无限的后训练『补丁』，就能实现AGI吗？

万字长文解读Scaling Law的一切，洞见LLM的未来

硅谷对中国AI公司的焦虑越来越重，不只是因为DeepSeek：2025这些赛道更值得关注

ICLR 2025 | 极性感知线性注意力！哈工深张正团队提出PolaFormer视觉基础模型

错判「RL 没前途」， LeCun 在技术路线还有哪些坚持？

进击的DeepSeek，一夜之间登陆Microsoft Azure、Cursor、Amazon Bedrock

OpenAI洽谈巨额融资，估值有望达3000亿，部分用于「星际之门」

线性扩散模型LiT来了，用极简线性注意力助力扩散模型AIPC时代端侧部署

27页综述，354篇参考文献！最详尽的视觉定位综述来了

持续反向传播算法能否打破 LLM 的「固化魔咒」？

为什么说DeepSeek的R1-Zero比R1更值得关注？

清华翟季冬：DeepSeek 百倍算力效能背后的系统革命 | 智者访谈

DeepSeek R1有没有赶上OpenAI o1？八大场景测评结果出炉

ICLR 2025｜大模型也需要好奇心，TeleAI 提出探索驱动的对齐方法，8B越级胜70B