语音识别也开始胡说八道了!
研究人员发现OpenAI的语音转录工具Whisper存在严重的「幻觉」问题,这让语音识别领域的专家们都坐不住了。
这不是简单的识别错误,而是完全的「无中生有」!
爱丁堡大学的研究员Pasquale Minervini指出,Whisper的幻觉问题与大语言模型的「忠实度幻觉」惊人地相似。他在推特上提出了一个发人深省的问题:
我们是否可以直接复用已有的LLM幻觉缓解技术来解决这个问题?
这个问题引发了学术界的热烈讨论。
幻觉有多离谱?
Jim O'Regan(@jimregan)分享了一个令人震惊的案例:
我的同事在测试TTS系统的词错率时发现,Whisper把「suicide」这个词转换成了「go kill yourself」这样的短语。
这种错误已经不是简单的识别偏差,而是完全改变了原文的语义!
更让人哭笑不得的是,O'Regan还发现:
如果你给Whisper一个包含较长静音片段的音频,它通常会莫名其妙地输出「Thanks to my supporters on patreon.com」这样的文本。
这种「创造性」让研究人员哭笑不得。
问题出在哪?
O'Regan进一步解释,大部分「幻觉」其实源于输入数据的过滤不当。
比如,由于YouTube上字幕语言标注的错误,当你用特定语言提示Whisper转录英语音频时,它有时会错误地进行翻译,产生完全不相关的内容。
解决方案在望
面对这个问题,研究人员提出了两个潜在的解决方案:
DeCoRe方法:通过对比检索头来缓解幻觉,在总结任务上提升了18.6%的性能。
SpARE技术:使用预训练稀疏自编码器来控制大语言模型的知识选择行为,在开放域问答任务中超越现有方法10%。
爱丁堡大学的Yuanchao Li(@Li_Yuan_Chao)表示:
这个问题与我们特别会议的目标完全一致:从NLP社区学习,构建负责任的语音模型。
👇
👇
👇
👇
本文同步自知识星球《AGI Hunt》
星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。
每天约监控6000 条消息,可节省约800+ 小时的阅读成本;
每天挖掘出10+ 热门的/新的 github 开源 AI 项目;
每天转译、点评 10+ 热门 arxiv AI 前沿论文。
星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)
一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;
二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。
欢迎你的加入!