OpenAI 翻车,Whisper也会产生幻觉!

旅行   2024-11-26 01:00   北京  

语音识别也开始胡说八道了!

研究人员发现OpenAI的语音转录工具Whisper存在严重的「幻觉」问题,这让语音识别领域的专家们都坐不住了。

这不是简单的识别错误,而是完全的「无中生有」!

爱丁堡大学的研究员Pasquale Minervini指出,Whisper的幻觉问题与大语言模型的「忠实度幻觉」惊人地相似。他在推特上提出了一个发人深省的问题:

我们是否可以直接复用已有的LLM幻觉缓解技术来解决这个问题?

这个问题引发了学术界的热烈讨论。

幻觉有多离谱?

Jim O'Regan(@jimregan)分享了一个令人震惊的案例:

我的同事在测试TTS系统的词错率时发现,Whisper把「suicide」这个词转换成了「go kill yourself」这样的短语。

这种错误已经不是简单的识别偏差,而是完全改变了原文的语义!

更让人哭笑不得的是,O'Regan还发现:

如果你给Whisper一个包含较长静音片段的音频,它通常会莫名其妙地输出「Thanks to my supporters on patreon.com」这样的文本。

这种「创造性」让研究人员哭笑不得。

问题出在哪?

O'Regan进一步解释,大部分「幻觉」其实源于输入数据的过滤不当

比如,由于YouTube上字幕语言标注的错误,当你用特定语言提示Whisper转录英语音频时,它有时会错误地进行翻译,产生完全不相关的内容。

解决方案在望

面对这个问题,研究人员提出了两个潜在的解决方案:

  1. DeCoRe方法:通过对比检索头来缓解幻觉,在总结任务上提升了18.6%的性能。

  2. SpARE技术:使用预训练稀疏自编码器来控制大语言模型的知识选择行为,在开放域问答任务中超越现有方法10%。

爱丁堡大学的Yuanchao Li(@Li_Yuan_Chao)表示:

这个问题与我们特别会议的目标完全一致:从NLP社区学习,构建负责任的语音模型。

👇

👇

👇

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本;

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目;

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

  • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

欢迎你的加入!

AGI Hunt
关注AGI 的沿途风景!
 最新文章