重磅!Rev发布Whisper终结者:Reverb ASR

旅行   2024-10-06 00:30   北京  



语音识别领域迎来新王者!


Rev公司刚刚发布了一款堪称"Whisper终结者"的开源语音识别模型,一举打破了当前语音识别和说话人分离的最高水平

这款名为Reverb ASR的模型,不仅性能强劲,还大方地将模型权重公开在了Hugging Face Hub上。

这一举动可谓是给语音识别领域带来了一股新鲜血液!

Reverb ASR:200K小时数据训练的超级模型

Reverb ASR可不是泛泛之辈。它在前所未有的20万小时人工转录数据上进行训练,成功达到了目前业界最低的词错误率(WER)。

更令人兴奋的是,这个模型还支持可定制的逐字转录。这意味着用户可以根据自己的需求,灵活调整转录的精确度和风格。

说话人分离:26K小时标注数据的加持

Rev团队没有止步于语音识别。他们还在说话人分离(Diarization)方面下足了功夫。

通过利用2.6万小时的标注数据,他们对pyannote模型进行了微调,推出了两个版本的说话人分离模型:

  • v1版本:基于pyannote3.0架构,经过17轮训练。

  • v2版本:更先进的版本,用WavLM取代了SincNet特征,实现了更精准的说话人分离。

强大的模型架构:精心设计的细节

Reverb ASR的架构设计可谓煞费苦心:

  • 结构:采用强大的CTC/注意力混合架构,包含18个conformer层和6个transformer层,总参数量达到6亿。

  • 语言特定层:用于控制逐字输出,确保转录的准确性和灵活性。

  • 多种解码模式:支持CTC、注意力和联合CTC/注意力解码,适应不同场景需求。

生产就绪:优化的推理管道

Rev团队显然深谙"理论与实践相结合"的道理。他们为Reverb ASR打造了一套优化的推理管道:

  • WFST波束搜索:提高解码效率。

  • Unigram语言模型:优化语言理解。

  • 注意力重新评分:进一步提升准确性。

  • 并行处理:确保快速输出。

  • 后处理:生成格式化输出,直接可用于生产环境。

开源策略:引领行业新风向

值得一提的是,Rev作为市场领导者,选择采取开放权重的策略,将模型权重公开在Hugging Face Hub上

该举动不仅展示了Rev的技术实力和开放态度,也为整个语音识别领域注入了新的活力。

想要一睹Reverb ASR的风采?

请直接访问Hugging Face Hub上的Rev模型仓库:

https://huggingface.co/Revai

👇

👇

👇

👇

本文同步自于知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本;

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目;

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

  • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

欢迎你的加入!

AGI Hunt
关注AGI 的沿途风景!
 最新文章