惊人发现!去学习法未能让AI真正「忘记」,它只是学会了「隐藏」

旅行   2024-10-16 07:00   北京  

AI模型的记忆力比我们想象的更顽固!

最近,一项令人震惊的研究结果揭示:目前的AI"遗忘"技术可能并不如我们想象的那么有效。这项由Aghyad Deeb等人进行的研究表明,即使经过所谓的"遗忘"处理,AI模型仍然能够恢复至少88%的原有知识。

揭开AI"遗忘"的神秘面纱

近年来,随着AI技术的飞速发展,如何让AI模型"忘记"某些信息成为了一个热门话题。这种技术被称为"遗忘"(unlearning),旨在从模型中移除特定的知识。然而,Aghyad Deeb(@aghyadd98)的研究团队发现,现有的遗忘方法可能只是让模型"学会"了隐藏信息,而非真正地删除它们。

这一发现引发了人们对AI安全性的担忧。正如Nathaniel Li(@natliml)等人之前的研究所示,即使是经过RMU(一种遗忘技术)处理的模型,仍然可能泄露本应被删除的危险信息。

创新方法:揭示AI的"记忆残留"

为了验证遗忘技术的有效性,研究团队开发了一种巧妙的方法:

  1. 首先,他们创建了一组相互独立的事实数据集。

  2. 然后,他们给攻击者提供部分本应被删除的事实。

  3. 最后,观察攻击者是否能利用这些信息恢复其他未给出的事实。

这种方法的关键在于:如果模型真的"忘记"了信息,那么即使给出部分事实,它也无法推断出其他相关但独立的事实。

惊人结果:AI的"记忆"顽强存在

研究结果令人震惊:

通过对可访问事实进行微调,研究人员发现可以恢复高达88%的原有准确率

这意味着,即使经过"遗忘"处理,大部分信息仍然潜伏在模型的权重中,只是被暂时"隐藏"了起来。

Rylan Schaeffer(@RylanSchaeffer)指出,这一发现与Sunny Duan的研究结果相呼应。Duan的研究表明,轻微随机扰动模型参数就能恢复那些看似已被遗忘的记忆序列。

对AI安全的深远影响

这项研究的结果对AI安全领域产生了深远的影响:

  • 现有遗忘技术的局限性:研究揭示了当前遗忘方法在彻底删除信息方面的不足。

  • 潜在的安全隐患:即使经过处理的模型仍可能泄露敏感信息,这对于需要严格保密的应用场景来说是一个严重的安全风险。

  • 对AI可控性的挑战:这一发现表明,我们对AI模型的控制能力可能比想象中更弱,需要开发更有效的方法来管理AI的知识库。

  • 对遗忘技术的重新评估:研究结果呼吁我们需要重新审视和改进现有的遗忘技术,以确保它们能真正达到预期效果。

看来AI 和人一样,要忘记一件事、忘记一个人,很难啊。

👇

👇

👇

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本;

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目;

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

  • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

欢迎你的加入!

AGI Hunt
关注AGI 的沿途风景!
 最新文章