AI在语音识别模型方面最新的几种开源案例

职场   2024-10-28 15:54   北京  

   图片来源于网络

 图片来源于网络


整理了最新接触的几个关于语音识别的方案。

  1.  Moonshine:

    https://github.com/usefulsensors/moonshine


    在10秒音频剪辑上,速度比Whisper快5倍,同时能保持与Whisper相同的准确性


    支持可变长度的输入,它可以根据实际语音内容动态调整处理的数据量,不是像Whisper那样固定处理30秒的音频块


    Moonshine的设计考虑了低延迟和高效率,非常适合在资源受限的设备上进行实时语音识别任务。

2. MaskGCT

它不需要文本和语音之间的显式对齐信息,也不需要音素级别的持续时间预测,采用了掩码和预测的学习方式,在声音克隆、跨语种合成、语音控制等方面表现优秀

1、支持控制生成语音的总长度,可调节语速、停顿等韵律特征、支持情感控制和语气调整,比如开心的、悲伤的、生气的、平静的等情绪

2、支持零样本语音合成,可以修改已生成的语音,支持声音转换和克隆 

github:

https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct… 

项目:https://maskgct.github.io


3. 基于 AI 的语音输入工具 Whispo

https://github.com/egoist/whispo

按Ctrl键就可以开始录音,松开即可将语音转文字 转录内容可以自动插入到任何支持文本输入的应用中,数据存于本地

4.  VAD (Voice Activity Detection) from ricky0123/vad-react

关于作者

做一只爬的最久的乌龟,保持学习保持好奇,即使慢一点,遇到一点困难,只要最后能到达终点,又有什么关系呢。
毕竟人生没有白走的路,每一步都算数。


前端程序设计
专注前端最前沿技术,数据可视化,web3d。偶尔插播生活和艺术。
 最新文章