图片来源于网络
图片来源于网络
整理了最新接触的几个关于语音识别的方案。
Moonshine:
https://github.com/usefulsensors/moonshine
在10秒音频剪辑上,速度比Whisper快5倍,同时能保持与Whisper相同的准确性
支持可变长度的输入,它可以根据实际语音内容动态调整处理的数据量,不是像Whisper那样固定处理30秒的音频块
Moonshine的设计考虑了低延迟和高效率,非常适合在资源受限的设备上进行实时语音识别任务。
2. MaskGCT
它不需要文本和语音之间的显式对齐信息,也不需要音素级别的持续时间预测,采用了掩码和预测的学习方式,在声音克隆、跨语种合成、语音控制等方面表现优秀
1、支持控制生成语音的总长度,可调节语速、停顿等韵律特征、支持情感控制和语气调整,比如开心的、悲伤的、生气的、平静的等情绪
2、支持零样本语音合成,可以修改已生成的语音,支持声音转换和克隆
github:
https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct…
项目:https://maskgct.github.io
3. 基于 AI 的语音输入工具 Whispo
https://github.com/egoist/whispo
按Ctrl键就可以开始录音,松开即可将语音转文字 转录内容可以自动插入到任何支持文本输入的应用中,数据存于本地
4. VAD (Voice Activity Detection) from ricky0123/vad-react