【数字人应用基建】7个数字人生成及24个语音到文本ASR开源项目

文摘   2024-12-16 11:40   北京  

今天是2024年12月16日,星期一,北京,天气晴。

今天,我们来看看语音方面的应用项目,讲两个内容,一个是7个数字人开源项目、一个是24个语音到文本项目,可以作为一个不错的索引,应该是比较全的。

供各位参考,多思考,多总结,多实践;

一、7个数字人开源项目

1、Fay

地址:https://github.com/xszyou/Fay

2、Sadtalker

地址:https://sadtalker.github.io/,https://modelscope.cn/studios/CVstudio/cv_human_portrait

3、Hallo

地址:https://fudan-generative-vision.github.io/hallo/#/,https://modelscope.cn/studios/AI-ModelScope/Hallo

4、EchoMimic/_v2

地址:https://badtobest.github.io/echomimic,https://modelscope.cn/studios/BadToBest/BadToBest,https://antgroup.github.io/ai/echomimic_v2/,https://github.com/antgroup/echomimic_v2

5、Wav2Lip

地址:https://github.com/Rudrabha/Wav2Lip

6、MuseTalk

地址:https://github.com/TMElyralab/MuseTalk

7、LivePortrait

地址:https://github.com/KwaiVGI/LivePortrait

二、24个语音到文本ASR开源项目

1)Moonshine

由UsefulSensors公司推出开源的模型,开源tiny版本,参数量:27M,只支持英文语言;开源base版本,参数量:61M,只支持英文语言;更快的处理速度,Moonshine的处理速度比Whisper快1.7倍。对于10秒的短音频片段,处理速度可达Whisper的五倍。基于20w小时的语音样本训练而来。

地址:https://github.com/usefulsensors/moonshine,https://hf-mirror.com/UsefulSensors/moonshine,https://arxiv.org/abs/2410.15608

2)Paraforme

由阿里达摩院出品的一个基础语音识别工具包,提供多种功能,包括语音识别(ASR)、语音端点检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别等。

地址:https://github.com/modelscope/FunASR,https://arxiv.org/abs/2206.08317,https://www.modelscope.cn/models/iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary

3)Whisper-large-v3

由openai发布的一个预训练的自动语音识别(ASR)和语音翻译模型,在68万小时的标记数据上进行训练。

地址:https://hf-mirror.com/openai/whisper-large-v3

4)SenseVoice

SenseVoice-Small提供5种语言(中文、英文、日语、韩语、粤语)的低延迟ASR(目前已开源),与Whisper-small(已开源)和Whisper-large相比,SenseVoice-Small的性能分别快5倍和15倍以上。,SenseVoice-Large支持超过50种语言的高精度ASR。提供情感识别能力(例如高兴、悲伤、生气等),能够检测音频中的特定事件,如音乐、掌声和笑声等。

地址:https://github.com/FunAudioLLM/SenseVoice,https://fun-audio-llm.github.io/pdf/FunAudioLLM.pdf,https://fun-audio-llm.github.io/,https://www.modelscope.cn/studios/iic/SenseVoice

5)Whisper-turbo

OpenAI重磅开源语言识别模型Whisper-turbo模型,是在lage-v3模型基础上微调的版本。模型更小,运行的速度更快。与原始模型相同,但解码层数从32减少到了4。turbo模型支持中文、英文在内的多种语言模型。

地址:https://hf-mirror.com/openai/whisper-large-v3-turbo

6)Qwen2_Audio

Qwen系列多模态大模型,支持超过8种语言和方言,例如中文、英语、粤语、法语、意大利语、西班牙语、德语和日语。可直接做ASR。

地址:https://github.com/QwenLM/Qwen2-audio,https://arxiv.org/abs/2407.107593,https://qwenlm.github.io/blog/qwen2-audio,https://hf-mirror.com/Qwen/Qwen2-Audio-7B-Instruct,https://www.modelscope.cn/studios/qwen/Qwen2-Audio-Instruct-Demo

7)FunASR

由阿里巴巴达摩院开发的一个开源自动语音识别(ASR)系统。

地址:https://github.com/alibaba/FunASR

8)ESPnet

ESPnet 是一个端到端的语音处理工具包,功能包含文本转语音、语音翻译、语音增强、说话者二值化、口语理解等等。

地址:https://github.com/espnet/espnet

9)DeepSpeech

嵌入式(离线、设备上)语音到文本引擎。

地址:https://github.com/mozilla/DeepSpeech,https://deepspeech.readthedocs.io/en/r0.9/,https://linux.cn/article-14233-1.html

10)PaddleSpeech

开源、易用、多合一的语音处理工具包,包含语音识别、语音翻译(英-中)、文本-语音、标点恢复功能。

地址:https://github.com/PaddlePaddle/PaddleSpeech

11)MASRMASR

中文普通话语音识别项目,同时兼容在线和离线识别

地址:https://github.com/nobody132/masr,https://blog.csdn.net/HELLOWORLD2424/article/details/12366787

12)SpeechBrain

支持语音识别系统,说话人识别、鉴定和记录,语音增强,语音分离,语言识别,语言翻译等。支持语言:中文。

地址:https://github.com/speechbrain/speechbrain

13)WeNetWeNet

更关注无监督自学习、设备端模型探索和优化。

地址:https://github.com/wenet-e2e/wenet,https://arxiv.org/abs/2203.15455

14)ESPnet

端到端的语音处理工具包,功能包含文本转语音、语音翻译、语音增强、说话者二值化、口语理解等等。

地址:https://github.com/espnet/espnet

15)ASRT

中文语音识别系统,在训练中使用了大量中文语音数据,将声音转录为中文拼音,并支持通过语言模型,将拼音序列转换为中文文本。

地址:https://github.com/nl8590687/ASRT_SpeechRecognition

16)Massively Multilingual Speech

Meta开源,识别4000多种口头语言并生成1100多种语。

地址:https://research.facebook.com/publications/scaling-speech-technology-to-1000-languages/,https://github.com/facebookresearch/fairseq/blob/main/examples/mms/README.md,https://ai.meta.com/blog/multilingual-model-speech-recognition

17)OpenSeq2Seq

由Nvidia开发,可进行转录,翻译,自动语音识别和情感分析。

地址:https://github.com/NVIDIA/OpenSeq2Seq

18)Vosk

可以在多种设备上离线运行,包括Android、iOS和Raspberry Pi,支持20多种语言或方言,包括:英语、中文、葡萄牙语、波兰语、德语等,提供了小型语言模型,理想情况下,大约只有50MB。

地址:https://github.com/alphacep/vosk-api

19)Tensorflow ASR

支持Conformer、ContextNet、DeepSpeech2和Jasper等方案。

地址:https://github.com/TensorSpeech/TensorFlowASR

20)Athena

支持自动语音识别(ASR)、语音合成、语音检测和关键字定位等功能。

地址:https://github.com/athena-team/athena

21)Flashlight ASR

由Facebook AI研究团队设计的开源语音识别工具包,使用C++编译。

地址:https://github.com/flashlight/wav2letter

22)Reverb

在长语音识别上,官方比Whisper large-v3、NVIDIA Canary-1B优秀,基于20万小时人工转录英语数据上训练,在长语音识别方面优秀,特别适合播客、财报电话会议等场景。

地址:https://github.com/revdotcom/reverb/tree/main/asr

23)KaldiTTS

应用于大学课程、语音研究和商业部署。

地址:https://github.com/kaldi-asr/kaldi,https://kaldi-asr.org/

24)Coqui Transcripts

Deepspeech和Deepspeech2项目原先团队出品。

地址:https://github.com/coqui-ai/STT

关于我们

老刘,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。

加入会员方式:关注公众号,在后台菜单栏中点击会员社区->会员入群加入


老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
 最新文章