惊人发现！去学习法未能让AI真正「忘记」，它只是学会了「隐藏」

旅行 2024-10-16 07:00 北京

AI模型的记忆力比我们想象的更顽固！

最近，一项令人震惊的研究结果揭示：目前的AI"遗忘"技术可能并不如我们想象的那么有效。这项由Aghyad Deeb等人进行的研究表明，即使经过所谓的"遗忘"处理，AI模型仍然能够恢复至少88%的原有知识。

揭开AI"遗忘"的神秘面纱

近年来，随着AI技术的飞速发展，如何让AI模型"忘记"某些信息成为了一个热门话题。这种技术被称为"遗忘"（unlearning），旨在从模型中移除特定的知识。然而，Aghyad Deeb(@aghyadd98)的研究团队发现，现有的遗忘方法可能只是让模型"学会"了隐藏信息，而非真正地删除它们。

这一发现引发了人们对AI安全性的担忧。正如Nathaniel Li(@natliml)等人之前的研究所示，即使是经过RMU（一种遗忘技术）处理的模型，仍然可能泄露本应被删除的危险信息。

创新方法：揭示AI的"记忆残留"

为了验证遗忘技术的有效性，研究团队开发了一种巧妙的方法：

首先，他们创建了一组相互独立的事实数据集。
然后，他们给攻击者提供部分本应被删除的事实。
最后，观察攻击者是否能利用这些信息恢复其他未给出的事实。

这种方法的关键在于：如果模型真的"忘记"了信息，那么即使给出部分事实，它也无法推断出其他相关但独立的事实。

惊人结果：AI的"记忆"顽强存在

研究结果令人震惊：

通过对可访问事实进行微调，研究人员发现可以恢复高达88%的原有准确率。

这意味着，即使经过"遗忘"处理，大部分信息仍然潜伏在模型的权重中，只是被暂时"隐藏"了起来。

Rylan Schaeffer(@RylanSchaeffer)指出，这一发现与Sunny Duan的研究结果相呼应。Duan的研究表明，轻微随机扰动模型参数就能恢复那些看似已被遗忘的记忆序列。

对AI安全的深远影响

这项研究的结果对AI安全领域产生了深远的影响：

现有遗忘技术的局限性：研究揭示了当前遗忘方法在彻底删除信息方面的不足。
潜在的安全隐患：即使经过处理的模型仍可能泄露敏感信息，这对于需要严格保密的应用场景来说是一个严重的安全风险。
对AI可控性的挑战：这一发现表明，我们对AI模型的控制能力可能比想象中更弱，需要开发更有效的方法来管理AI的知识库。
对遗忘技术的重新评估：研究结果呼吁我们需要重新审视和改进现有的遗忘技术，以确保它们能真正达到预期效果。

看来AI 和人一样，要忘记一件事、忘记一个人，很难啊。

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容，并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

每天约监控6000 条消息，可节省约800+ 小时的阅读成本；
每天挖掘出10+ 热门的/新的 github 开源 AI 项目；
每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年，0.27元/天。(每+100人，+20元。元老福利~）

一是运行有成本，我希望它能自我闭环，这样才能长期稳定运转；
二是对人的挑选，鱼龙混杂不是我想要的，希望找到关注和热爱 AI 的人。

欢迎你的加入！

http://mp.weixin.qq.com/s?__biz=MzA4NzgzMjA4MQ==&mid=2453452974&idx=1&sn=aecf2c9978f7497e6189186f84cd5507

AGI Hunt

关注AGI 的沿途风景！

最新文章

MLX-VLM：让你的Mac秒变AI视觉大师！

生物界的GPT来了？Basecamp Research获6000万美元融资打造「生物版ChatGPT」

MAID：多文件一键生成ChatGPT提示词的神器！

惊人突破：ChatGPT诊断癌症达96%准确率

Perplexity计划筹资5亿美元，估值将达80亿美元

我如何在两周内全面学习LLMs？【实习求职必读】

重磅！OpenAI前CTO Mira Murati筹资一亿美元创办新公司

Sage：开源版GitHub Copilot，代码库也能聊天了！

特斯拉无线充电机器人，惊艳亮相！

重磅！微软开源1比特推理框架，CPU跑千亿模型，速度起飞

Yann LeCun：驴爬楼梯说明了什么？

SQL+LLM：让数据分析变得更加智能

Anthropic的财务分析师：用AI洞悉数据，一键生成可视化报告

Anthropic新研究揭示模型潜在的「破坏」能力

Omni ocr：「糟糕」PDF一键转结构化数据

重磅！OpenAI 或用「AGI已实现」漏洞与微软决裂

Greg Brockman将于下个月回归OpenAI，但，公司已物是人非！

英特尔联手AMD，x86联盟反击ARM霸权！

OpenAI大门敞开：不懂AI也能加入，只要你敢想敢干！

NotebookLM最新大升级：定制音频概览、后台播放，并推出企业版

Anthropic 的 CEO 认为 AI 将带来乌托邦 —— 但他首先需要数十亿美元

"X is All You Need"的论文标题是怎么爆发的？

为什么Yann LeCun与Sam Altman对AGI 的预测如此不同？

Meta推出CoTracker3：重新定义视频点追踪

Suno 推出新功能：让照片和视频秒变专属歌曲

英伟达深夜偷袭，微调llama3.1直接击败GPT-4o和Claude3.5

刚刚，Mistral发布端侧模型，占据边缘计算之王！

OpenAI Swarm多代理框架 vs CrewAI 和 AutoGen

Andrej Karpathy：1B参数模型足矣！

AI能理解颜色吗？——将色彩进行嵌入的研究

OpenAI「重磅」新研究：你的名字可能影响ChatGPT的回答！

马斯克机器人梦碎？LeCun：Optimus不过是一具华而不实的躯壳

Gladia获1600万美元融资，推实时语音AI引擎

惊人发现！去学习法未能让AI真正「忘记」，它只是学会了「隐藏」

重磅！Anthropic发布超级智能时代的AI安全政策

Google计划用核能前往AGI

AI不如猫？斯坦福AI主任驳LeCun：你太悲观了！

OpenAI O1：正用AI加速AI的研发

普林斯顿大学：限制AI访问将带来负面影响。LeCun：开源终将胜利！

OpenAI的新威胁：前CTO Mira Murati 正挖角内部员工以创办新公司

AlphaCodium突破o1瓶颈：让AI代码生成更接近人类思维

LLM不会推理——1万美金悬赏下，o1在内所有模型均无法反转二叉树？！

谢赛宁：重要的话说三次，表征对齐很重要！！！

Sam Altman的完美花园：OpenAI的未来蓝图？

Cursor 最强对手？AI编程独角兽Poolside获eBay、英伟达融资5亿美元！

OpenAI将推出新模型对抗Anthropic！不是GPT-5

Glean：从OpenAI禁投黑名单到46亿美元估值

PyTorch版AlphaFold 3来了！

AGI倒计时！Anthropic CEO预言2026年到来

OpenAI遭惊天剽窃指控！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉