语音识别领域迎来新王者!
Rev公司刚刚发布了一款堪称"Whisper终结者"的开源语音识别模型,一举打破了当前语音识别和说话人分离的最高水平。
这款名为Reverb ASR的模型,不仅性能强劲,还大方地将模型权重公开在了Hugging Face Hub上。这一举动无疑给语音识别领域带来了一股新鲜血液!
Reverb ASR:200K小时数据训练的超级模型
Reverb ASR可不是泛泛之辈。它在前所未有的20万小时人工转录数据上进行训练,成功达到了目前业界最低的词错误率(WER)。
更令人兴奋的是,这个模型还支持可定制的逐字转录。这意味着用户可以根据自己的需求,灵活调整转录的精确度和风格。
说话人分离:26K小时标注数据的加持
Rev团队没有止步于语音识别。他们还在说话人分离(Diarization)方面下足了功夫。
通过利用2.6万小时的标注数据,他们对pyannote模型进行了微调,推出了两个版本的说话人分离模型:
v1版本:基于pyannote3.0架构,经过17轮训练。
v2版本:更先进的版本,用WavLM取代了SincNet特征,实现了更精准的说话人分离。
强大的模型架构:精心设计的细节
Reverb ASR的架构设计可谓煞费苦心:
结构:采用强大的CTC/注意力混合架构,包含18个conformer层和6个transformer层,总参数量达到6亿。
语言特定层:用于控制逐字输出,确保转录的准确性和灵活性。
多种解码模式:支持CTC、注意力和联合CTC/注意力解码,适应不同场景需求。
生产就绪:优化的推理管道
Rev团队显然深谙"理论与实践相结合"的道理。他们为Reverb ASR打造了一套优化的推理管道:
WFST波束搜索:提高解码效率。
Unigram语言模型:优化语言理解。
注意力重新评分:进一步提升准确性。
并行处理:确保快速输出。
后处理:生成格式化输出,直接可用于生产环境。
开源策略:引领行业新风向
值得一提的是,Rev作为市场领导者,选择采取开放权重的策略,将模型权重公开在Hugging Face Hub上。
该举动不仅展示了Rev的技术实力和开放态度,也为整个语音识别领域注入了新的活力。
想要一睹Reverb ASR的风采?你可以直接访问Hugging Face Hub上的Rev模型仓库:
https://huggingface.co/Revai
相关链接
👇
👇
👇
👇
本文同步自于知识星球《AGI Hunt》
星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。
- 每天约监控6000 条消息,可节省约800+ 小时的阅读成本;
- 每天挖掘出10+ 热门的/新的 github 开源 AI 项目;
- 每天转译、点评 10+ 热门 arxiv AI 前沿论文。
星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)
- 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;
- 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。
欢迎你的加入!