端到端语音对话&多模态模型开发应用的几种开源方案

职场   2024-10-28 15:54   北京  

最近越来越多的语音对话优秀方案涌现出来,不得不整理一下了。

  1.  GLM-4.Voice

智谱刚刚开源了情感语音模型 GLM-4.Voice,

一款端到端语音模型,能情感共鸣、支持打断、多语言多方言支持 能力:

1、情感表达和情感共鸣:可以模拟不同的情感和语调,高兴、悲伤、生气、害怕等情绪,会用合适的情绪语气回复 

2、调节语速:可以要求TA快点说or慢点说

3、随时打断:可以根据实时的指令,调整语音输出的内容、风格和情感,支持更灵活的对话互动 

4、多语言、多方言支持:目前支持中英文语音以及中国各地方言,擅长粤语、重庆话、北京话 

github:https://github.com/THUDM/GLM-4-Voice


目前该模型的能力已同步上线清言app


2.  gradio-groq-basics

作者@BenjaminKlieger展示如何构建基于 Gradio和界面Groq提供 AI 推理的多模态应用, 提供语音、图像和文本交互的基础构建模块。

核心功能:

- 语音转文字(Whisper 模型)

- 图像理解(Llama-3.2-vision 模型) 

- 传统文字聊天 

- 支持语音→文字→LLM 响应的完整流程

项目地址: 

https://github.com/bklieger-groq/gradio-groq-basics


3. Aya-Expanse-32B

Cohere For AI开源了一款精通23种语言的大模型。

支持128K的上下文窗口 

32B参数 

23种语言,包括中文、英文、阿拉伯文、日文、韩文等

模型:

https://huggingface.co/CohereForAI/aya-expanse-32b


4. 实时语音AI Agent: daily-bots-web-demo


基于STT、LLM 和TTS 构建实时语音 AI Agent 的 Sample 开源项目。
其中 LLM 可配置不同的 LLM API, 如 Claude、GPT、Together LLama 等, 需要 Vison 和 Function Call 能力的 LLM 采用 Claude。

https://github.com/daily-demos/daily-bots-web-demo


5. 实时语音:Ichigo-llama3.1


Whisper  ichigo: https://github.com/homebrewltd/ichigo… 
tabby: https://github.com/theroyallab/tabbyAPI… 
fish-speech: https://github.com/fishaudio/fish-speech… 
whisper: https://github.com/openai/whisper runpod template: 
测试地址:
 https://runpod.io/console/deploy?template=yy2sva2u2f&ref=iqi9iy8y


6. Mini-Omni2

不光能听能说,还能看,它加入了视觉内容编码器,可以基于视觉信息实时语音问答 增加了中断机制,

在对话过程中支持灵活交互,支持打断。

支持端到端的语音输入、输出 

Mini-Omni是清华大学启元实验室开源的项目,能听、能说也能实时思考,在实时语音交互上媲美GPT-4o 

特点:

1、实时语音到语音的对话能力: 无需额外的ASR或TTS模型 

2、边思考边说话: 能够同时生成文本和音频 

3、流式音频输出: 支持流式音频输出 

4、"Any Model Can Talk" 方法: Mini-Omni 可以将语音交互能力添加到其他模型中,为其他模型赋能

github:https://github.com/gpt-omni/mini-omni2



4.   F5-TTS + QWEN

https://github.com/SWivid/F5-TTS

https://github.com/lucasnewman/f5-tts-mlx

1. pip install f5-tts-mlx 

2. python -m f5_tts_mlx.generate --text "Hello world" 

3. afplay output.wav ()


关于作者

做一只爬的最久的乌龟,保持学习保持好奇,即使慢一点,遇到一点困难,只要最后能到达终点,又有什么关系呢。
毕竟人生没有白走的路,每一步都算数。


前端程序设计
专注前端最前沿技术,数据可视化,web3d。偶尔插播生活和艺术。
 最新文章