首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了，SU哈佛亚马逊最新研究引热议

科技 2024-11-16 13:12 北京

西风发自凹非寺
量子位 | 公众号 QbitAI

4-bit量化，能让现有反学习/机器遗忘技术失灵！

也就是大模型在人类要求下“假装”忘记了特定知识（版权、私人内容等），但有手段能让它重新“回忆”起来。

最近，来自宾夕法尼亚州立大学、哈佛大学、亚马逊团队的一项新研究在reddit、Hacker News上引起热议。

他们发现对“失忆”的模型量化（quantization），可以部分或甚至完全恢复其已遗忘的知识。

原因是在量化过程中，模型参数的微小变化可能导致量化后的模型权重与原始模型权重相同。

看到这项研究后，不少网友也表示有点意外：

从信息理论的角度来看这有点出人意料，似乎已经在完整的32-bit中成功移除了这些知识，但当你将其压缩到4-bit时，知识又重新出现了。
这让人不禁想知道在压缩/量化步骤中到底丢失了什么信息。

可能这些知识从未真正丢失，只是被隐藏了。
如果我们把神经网络看作是代码，权重就是源代码，微调实际上可能有效地修改了这些代码，以阻止返回某些结果。
因此，你可能只是在某些输出周围建立了防火墙。但量化可能使这些最近的编辑消失，它们太微小而无法保留。

值得一提的是，团队提出了一种缓解此问题的策略。

这种策略通过构建模块级别的显著性图来指导遗忘过程，只更新与遗忘数据最相关的模型部分，从而在保持模型效用的同时，减少量化后知识恢复的风险。

话不多说，具体来康康。

让失忆的大模型重新记起来

大模型在训练过程中可能会无意学习到人类不希望它保留的知识，例如版权和私人内容。为了解决这个问题，研究者们此前提出了反学习（machine unlearning）的概念，旨在不重新训练模型的情况下，从模型中移除特定知识。

现有的主流反学习方法包括梯度上升（GA）和负向偏好优化（NPO）两大类，通常会采用较小的学习率并加入效用约束，以在遗忘特定内容的同时保持模型的整体性能。

用于优化模型遗忘的最常用数学表达式是：

再来看量化，考虑一组或一块权重w，线性操作可以表示为y=wx，量化后为y=Q(w)x，其中 Q(⋅)是量化函数：

在这项研究中，研究人员使用Q(f)表示量化后的模型f。因此，实施一个反学习法然后对遗忘后的模型进行量化可以写为：

研究人员评估了针对大模型的六种有效的反学习方法——结合NPO、GA两种策略，在保留集上进行梯度下降（GDR）或最小化KL散度（KLR），形成了GA、GA_GDR、GA_KLR、NPO、NPO_GDR、NPO_KLR。

结果显示，这些方法在经过量化后会出现“灾难性失败”。

具体表现为，在全精度下，加入效用约束的反学习法平均保留21%的目标遗忘知识，但经过4-bit量化后，这一比例急剧上升到83%。

这意味着大部分被“遗忘”的知识通过简单的量化操作就能恢复。

实验中还使用了不同位数的量化，包括4-bit和8-bit量化，量化精度对遗忘效果也有显著影响，8-bit量化的影响相对较小，模型表现接近全精度版本，但在4-bit量化下，遗忘性能显著恶化。

实验在NEWS（BBC新闻文章）和BOOKS（哈利波特系列）等基准数据集上进行，使用了四个评估指标：

逐字记忆（VerMem，评估逐字复制能力）、知识记忆（KnowMem，评估知识问答能力）、隐私泄露（PrivLeak，基于成员推理攻击评估隐私保护程度）以及保留集效用（评估模型在非遗忘数据上的表现）。

研究人员还分析了各种量化技术对遗忘的影响，用GPTQ和AWQ两种先进的4-bit量化法在相同的实验设置下进行实验，NEWS数据集上的结果如下：

GPTQ和AWQ的表现与RTN相似。

尽管研究人员表示已努力有效地调整参数，但校准数据集是通用的，而不是针对遗忘数据集的领域进行定制，这意味着GPTQ和AWQ仍然可能保留了本应被遗忘的知识。

为什么？怎么办？

经分析，研究人员认为这一问题的根本原因在于：

现有反学习法为了保持模型效用而使用较小的学习率和效用约束，导致模型权重变化很小，在量化过程中原模型和遗忘后模型的权重很容易被映射到相同的离散值，从而使被遗忘的知识重新显现。

由此，研究人员提出了一种称作SURE（Saliency-Based Unlearning with a Large Learning Rate）的框架作为改进方案。

该框架通过构建模块级显著性图来指导遗忘过程，选择性地对与遗忘数据最相关的组件使用较大的学习率，同时最小化对其它功能的影响。

通过实验，验证了SURE策略防止量化后遗忘知识恢复的有效性，并且与现有的反学习方法相比，SURE在全精度模型上实现了可比的遗忘性能和模型效用。

研究人员还探讨了SURE策略中不同阈值对遗忘性能的影响，发现适度的阈值可以在遗忘性能和模型效用之间取得平衡。

更多细节，感兴趣的童鞋可以查阅原论文，代码已在GitHub上公开。

论文链接：https://arxiv.org/pdf/2410.16454

参考链接：
[1]https://news.ycombinator.com/item?id=42037982
[2]https://github.com/zzwjames/FailureLLMUnlearning

— 完 —

定档12月11日

「MEET2025智能未来大会」开启报名

李开复博士、周志华教授、智源研究院王仲远院长都来量子位MEET2025智能未来大会探讨行业破局之道了！

首批嘉宾阵容在此，观众报名通道已开启！欢迎来到MEET智能未来大会，期待与您一起预见智能科技新未来！

点这里👇关注我，记得标星哦～

一键三连「点赞」、「分享」和「在看」

科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247758574&idx=4&sn=18ae18243cf4170078f9679ed45bd81a

追踪人工智能新趋势，关注科技行业新突破

最新文章

“清华AI医院”上线！首批42位AI医生亮相，诊断覆盖300余种疾病

国产4o大模型，秒懂国风李子柒

人生搜索引擎免费用，开源版哈利波特“冥想盆”登GitHub热榜，支持中文

iPad可用AI绘画交互编辑神器火了，网友：颤抖吧PS

多样任务真实数据，大模型在线购物基准Shopping MMLU开源｜NeurIPS&KDD Cup 2024

定档12月11日，MEET2025智能未来大会报名通道已开启！

刚刚，星舰第六次试验成功！猛禽发动机实现“太空重启”，降落过程大秀身姿

2499，AI浓度爆表！戴上这副眼镜，一句话点咖啡/实时翻译/AR导航全搞定

特斯联首款通用智能体发布，实现对物理世界的高维感知

港科大具身机器人团队，连续获亿级融资

ChatGPT付费功能免费用！Mistral把Canvas、Artifact全复制了

Qwen2.5更新百万超长上下文，推理速度4.3倍加速，网友：RAG要过时了

AI自动操作VS Code，自然语言搞定各种配置，来自阿里通义智能计算实验室 | 开源

定档12月11日，MEET2025智能未来大会报名通道已开启！

腾讯AI大牛，被曝投身视频生成创业

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超越闭源模型

猫猫运动方程，首次被物理学家破解！ |《美国物理学杂志》正经研究

如祺出行跑进智驾深水区 “数据闭环”为技术迭代提供更优解

智能交互创新赛落幕，哈工大AI智能背诵助手拿下特等奖｜OPPO智能体平台

AI能办专属信用卡了，Agent自己赚钱自己花，OpenAI合作伙伴打造

AI一键解析九大生物医学成像模式，用户只需文字prompt交互，微软UW等新研究登Nature Methods

定档12月11日，MEET2025智能未来大会报名通道已开启！

ChatGPT击败50名人类医生！疾病诊断准确率达90%，OpenAI总裁：人机合作还得加强

打破纪录！中国科学家让薛定谔的猫活了23分钟

视频大模型无损提速：删除多余token，训练时间减少30%，帧率越高效果越好 | NeurIPS

实测腾讯元宝2.0：图文视频啥都能搜，论文绘画全搞定

杨植麟发布Kimi新模型：数学对标o1，中考高考考研成绩全第一

航展附近这场无人机编队表演，竟用了钉钉AI助理出的方案

量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了，SU哈佛亚马逊最新研究引热议

不做Sora背后：百度的多模态路线是什么？

马斯克新官上任再起诉OpenAI！新证据称Ilya七年前就不放心奥特曼了

人大&港科大揭示大模型重要安全风险漏洞：利用概念激活向量破解大模型的安全对齐｜NeurIPS 2024

多个中国团队斩获EMNLP'24最佳论文！UCLA华人学者中三篇杰出论文，明年顶会落户苏州

谷歌杀回来了！新版Gemini跑分超o1登顶第一，CEO：这才哪到哪儿

ChatGPT深夜更新：Mac版支持“读屏编程”，Windows版全员可用了

AI在《我的世界》PK盖楼，新旧Claude差距过于明显，网友：审美也是智力的一种

最后1天！2024人工智能年度评选，AI时代的行业先锋就等你来

大模型上了火山方舟：数据唯你可见，唯你所用，唯你所有

李飞飞吴佳俊团队新作：推出具身智能决策能力评价基准，o1-preview登顶 | NeurIPS

Scaling Law遭遇瓶颈，OpenAI被曝押注智能体“Operator”

Meta最新触觉机械手登Science子刊封面，操作未知物体精度最高提升94%

大模型“取长补短”新思路入选NeurIPS'24，显著优于现有路由方法，南科大港科大出品

最后2天！2024人工智能年度评选，AI时代的行业先锋就等你来

把Runway、Luma们一锅端了！这款视频模型上“杀手级”功能：一致性魔咒终于打破

Keras之父，离职谷歌

百度打通两大国民产品！六边形AI创作新物种「自由画布」来了

小度为何押注AI眼镜？

今日最热论文：Scaling Law后继乏力，量化也不管用，AI大佬齐刷刷附议

稚晖君后宇树也来玩开源了：机器人操作数据集，采用抱抱脸LeRobot训练测试，网友：泰裤辣！

最后3天！2024人工智能年度评选，AI时代的行业先锋就等你来

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉