今天是2024年12月16日,星期一,北京,天气晴。
今天,我们来看看语音方面的应用项目,讲两个内容,一个是7个数字人开源项目、一个是24个语音到文本项目,可以作为一个不错的索引,应该是比较全的。
供各位参考,多思考,多总结,多实践;
一、7个数字人开源项目
1、Fay
地址:https://github.com/xszyou/Fay
2、Sadtalker
地址:https://sadtalker.github.io/,https://modelscope.cn/studios/CVstudio/cv_human_portrait
3、Hallo
地址:https://fudan-generative-vision.github.io/hallo/#/,https://modelscope.cn/studios/AI-ModelScope/Hallo
4、EchoMimic/_v2
地址:https://badtobest.github.io/echomimic,https://modelscope.cn/studios/BadToBest/BadToBest,https://antgroup.github.io/ai/echomimic_v2/,https://github.com/antgroup/echomimic_v2
5、Wav2Lip
地址:https://github.com/Rudrabha/Wav2Lip
6、MuseTalk
地址:https://github.com/TMElyralab/MuseTalk
7、LivePortrait
地址:https://github.com/KwaiVGI/LivePortrait
二、24个语音到文本ASR开源项目
1)Moonshine
由UsefulSensors公司推出开源的模型,开源tiny版本,参数量:27M,只支持英文语言;开源base版本,参数量:61M,只支持英文语言;更快的处理速度,Moonshine的处理速度比Whisper快1.7倍。对于10秒的短音频片段,处理速度可达Whisper的五倍。基于20w小时的语音样本训练而来。
地址:https://github.com/usefulsensors/moonshine,https://hf-mirror.com/UsefulSensors/moonshine,https://arxiv.org/abs/2410.15608
2)Paraforme
由阿里达摩院出品的一个基础语音识别工具包,提供多种功能,包括语音识别(ASR)、语音端点检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别等。
地址:https://github.com/modelscope/FunASR,https://arxiv.org/abs/2206.08317,https://www.modelscope.cn/models/iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary
3)Whisper-large-v3
由openai发布的一个预训练的自动语音识别(ASR)和语音翻译模型,在68万小时的标记数据上进行训练。
地址:https://hf-mirror.com/openai/whisper-large-v3
4)SenseVoice
SenseVoice-Small提供5种语言(中文、英文、日语、韩语、粤语)的低延迟ASR(目前已开源),与Whisper-small(已开源)和Whisper-large相比,SenseVoice-Small的性能分别快5倍和15倍以上。,SenseVoice-Large支持超过50种语言的高精度ASR。提供情感识别能力(例如高兴、悲伤、生气等),能够检测音频中的特定事件,如音乐、掌声和笑声等。
地址:https://github.com/FunAudioLLM/SenseVoice,https://fun-audio-llm.github.io/pdf/FunAudioLLM.pdf,https://fun-audio-llm.github.io/,https://www.modelscope.cn/studios/iic/SenseVoice
5)Whisper-turbo
OpenAI重磅开源语言识别模型Whisper-turbo模型,是在lage-v3模型基础上微调的版本。模型更小,运行的速度更快。与原始模型相同,但解码层数从32减少到了4。turbo模型支持中文、英文在内的多种语言模型。
地址:https://hf-mirror.com/openai/whisper-large-v3-turbo
6)Qwen2_Audio
Qwen系列多模态大模型,支持超过8种语言和方言,例如中文、英语、粤语、法语、意大利语、西班牙语、德语和日语。可直接做ASR。
地址:https://github.com/QwenLM/Qwen2-audio,https://arxiv.org/abs/2407.107593,https://qwenlm.github.io/blog/qwen2-audio,https://hf-mirror.com/Qwen/Qwen2-Audio-7B-Instruct,https://www.modelscope.cn/studios/qwen/Qwen2-Audio-Instruct-Demo
7)FunASR
由阿里巴巴达摩院开发的一个开源自动语音识别(ASR)系统。
地址:https://github.com/alibaba/FunASR
8)ESPnet
ESPnet 是一个端到端的语音处理工具包,功能包含文本转语音、语音翻译、语音增强、说话者二值化、口语理解等等。
地址:https://github.com/espnet/espnet
9)DeepSpeech
嵌入式(离线、设备上)语音到文本引擎。
地址:https://github.com/mozilla/DeepSpeech,https://deepspeech.readthedocs.io/en/r0.9/,https://linux.cn/article-14233-1.html
10)PaddleSpeech
开源、易用、多合一的语音处理工具包,包含语音识别、语音翻译(英-中)、文本-语音、标点恢复功能。
地址:https://github.com/PaddlePaddle/PaddleSpeech
11)MASRMASR
中文普通话语音识别项目,同时兼容在线和离线识别
地址:https://github.com/nobody132/masr,https://blog.csdn.net/HELLOWORLD2424/article/details/12366787
12)SpeechBrain
支持语音识别系统,说话人识别、鉴定和记录,语音增强,语音分离,语言识别,语言翻译等。支持语言:中文。
地址:https://github.com/speechbrain/speechbrain
13)WeNetWeNet
更关注无监督自学习、设备端模型探索和优化。
地址:https://github.com/wenet-e2e/wenet,https://arxiv.org/abs/2203.15455
14)ESPnet
端到端的语音处理工具包,功能包含文本转语音、语音翻译、语音增强、说话者二值化、口语理解等等。
地址:https://github.com/espnet/espnet
15)ASRT
中文语音识别系统,在训练中使用了大量中文语音数据,将声音转录为中文拼音,并支持通过语言模型,将拼音序列转换为中文文本。
地址:https://github.com/nl8590687/ASRT_SpeechRecognition
16)Massively Multilingual Speech
Meta开源,识别4000多种口头语言并生成1100多种语。
地址:https://research.facebook.com/publications/scaling-speech-technology-to-1000-languages/,https://github.com/facebookresearch/fairseq/blob/main/examples/mms/README.md,https://ai.meta.com/blog/multilingual-model-speech-recognition
17)OpenSeq2Seq
由Nvidia开发,可进行转录,翻译,自动语音识别和情感分析。
地址:https://github.com/NVIDIA/OpenSeq2Seq
18)Vosk
可以在多种设备上离线运行,包括Android、iOS和Raspberry Pi,支持20多种语言或方言,包括:英语、中文、葡萄牙语、波兰语、德语等,提供了小型语言模型,理想情况下,大约只有50MB。
地址:https://github.com/alphacep/vosk-api
19)Tensorflow ASR
支持Conformer、ContextNet、DeepSpeech2和Jasper等方案。
地址:https://github.com/TensorSpeech/TensorFlowASR
20)Athena
支持自动语音识别(ASR)、语音合成、语音检测和关键字定位等功能。
地址:https://github.com/athena-team/athena
21)Flashlight ASR
由Facebook AI研究团队设计的开源语音识别工具包,使用C++编译。
地址:https://github.com/flashlight/wav2letter
22)Reverb
在长语音识别上,官方比Whisper large-v3、NVIDIA Canary-1B优秀,基于20万小时人工转录英语数据上训练,在长语音识别方面优秀,特别适合播客、财报电话会议等场景。
地址:https://github.com/revdotcom/reverb/tree/main/asr
23)KaldiTTS
应用于大学课程、语音研究和商业部署。
地址:https://github.com/kaldi-asr/kaldi,https://kaldi-asr.org/
24)Coqui Transcripts
Deepspeech和Deepspeech2项目原先团队出品。
地址:https://github.com/coqui-ai/STT
关于我们
老刘,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。
对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。
加入会员方式:关注公众号,在后台菜单栏中点击会员社区->会员入群加入