最近越来越多的语音对话优秀方案涌现出来,不得不整理一下了。
GLM-4.Voice
智谱刚刚开源了情感语音模型 GLM-4.Voice,
一款端到端语音模型,能情感共鸣、支持打断、多语言多方言支持 能力:
1、情感表达和情感共鸣:可以模拟不同的情感和语调,高兴、悲伤、生气、害怕等情绪,会用合适的情绪语气回复
2、调节语速:可以要求TA快点说or慢点说
3、随时打断:可以根据实时的指令,调整语音输出的内容、风格和情感,支持更灵活的对话互动
4、多语言、多方言支持:目前支持中英文语音以及中国各地方言,擅长粤语、重庆话、北京话
github:https://github.com/THUDM/GLM-4-Voice
目前该模型的能力已同步上线清言app
2. gradio-groq-basics
作者@BenjaminKlieger展示如何构建基于 Gradio和界面Groq提供 AI 推理的多模态应用, 提供语音、图像和文本交互的基础构建模块。
核心功能:
- 语音转文字(Whisper 模型)
- 图像理解(Llama-3.2-vision 模型)
- 传统文字聊天
- 支持语音→文字→LLM 响应的完整流程
项目地址:
https://github.com/bklieger-groq/gradio-groq-basics
3. Aya-Expanse-32B
Cohere For AI开源了一款精通23种语言的大模型。
支持128K的上下文窗口
32B参数
23种语言,包括中文、英文、阿拉伯文、日文、韩文等
模型:
https://huggingface.co/CohereForAI/aya-expanse-32b
4. 实时语音AI Agent: daily-bots-web-demo
https://github.com/daily-demos/daily-bots-web-demo
5. 实时语音:Ichigo-llama3.1
6. Mini-Omni2
不光能听能说,还能看,它加入了视觉内容编码器,可以基于视觉信息实时语音问答 增加了中断机制,
在对话过程中支持灵活交互,支持打断。
支持端到端的语音输入、输出
Mini-Omni是清华大学启元实验室开源的项目,能听、能说也能实时思考,在实时语音交互上媲美GPT-4o
特点:
1、实时语音到语音的对话能力: 无需额外的ASR或TTS模型
2、边思考边说话: 能够同时生成文本和音频
3、流式音频输出: 支持流式音频输出
4、"Any Model Can Talk" 方法: Mini-Omni 可以将语音交互能力添加到其他模型中,为其他模型赋能
github:https://github.com/gpt-omni/mini-omni2
4. F5-TTS + QWEN
https://github.com/SWivid/F5-TTS
https://github.com/lucasnewman/f5-tts-mlx
1. pip install f5-tts-mlx
2. python -m f5_tts_mlx.generate --text "Hello world"
3. afplay output.wav ()