首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

端到端语音对话&多模态模型开发应用的几种开源方案

职场 2024-10-28 15:54 北京

最近越来越多的语音对话优秀方案涌现出来，不得不整理一下了。

GLM-4.Voice

智谱刚刚开源了情感语音模型 GLM-4.Voice，

一款端到端语音模型，能情感共鸣、支持打断、多语言多方言支持能力：

1、情感表达和情感共鸣：可以模拟不同的情感和语调，高兴、悲伤、生气、害怕等情绪，会用合适的情绪语气回复

2、调节语速：可以要求TA快点说or慢点说

3、随时打断：可以根据实时的指令，调整语音输出的内容、风格和情感，支持更灵活的对话互动

4、多语言、多方言支持：目前支持中英文语音以及中国各地方言，擅长粤语、重庆话、北京话

github：https://github.com/THUDM/GLM-4-Voice

目前该模型的能力已同步上线清言app

2. gradio-groq-basics

作者@BenjaminKlieger展示如何构建基于 Gradio和界面Groq提供 AI 推理的多模态应用, 提供语音、图像和文本交互的基础构建模块。

核心功能:

- 语音转文字(Whisper 模型)

- 图像理解(Llama-3.2-vision 模型)

- 传统文字聊天

- 支持语音→文字→LLM 响应的完整流程

项目地址:

https://github.com/bklieger-groq/gradio-groq-basics

3. Aya-Expanse-32B

Cohere For AI开源了一款精通23种语言的大模型。

支持128K的上下文窗口

32B参数

23种语言，包括中文、英文、阿拉伯文、日文、韩文等

模型：

https://huggingface.co/CohereForAI/aya-expanse-32b

4. 实时语音AI Agent: daily-bots-web-demo

基于STT、LLM 和TTS 构建实时语音 AI Agent 的 Sample 开源项目。

其中 LLM 可配置不同的 LLM API, 如 Claude、GPT、Together LLama 等, 需要 Vison 和 Function Call 能力的 LLM 采用 Claude。

https://github.com/daily-demos/daily-bots-web-demo

5. 实时语音：Ichigo-llama3.1

Whisper ichigo: https://github.com/homebrewltd/ichigo…

tabby: https://github.com/theroyallab/tabbyAPI…

fish-speech: https://github.com/fishaudio/fish-speech…

whisper: https://github.com/openai/whisper runpod template:

测试地址：

https://runpod.io/console/deploy?template=yy2sva2u2f&ref=iqi9iy8y

6. Mini-Omni2

不光能听能说，还能看，它加入了视觉内容编码器，可以基于视觉信息实时语音问答增加了中断机制，

在对话过程中支持灵活交互，支持打断。

支持端到端的语音输入、输出

Mini-Omni是清华大学启元实验室开源的项目，能听、能说也能实时思考，在实时语音交互上媲美GPT-4o

特点：

1、实时语音到语音的对话能力: 无需额外的ASR或TTS模型

2、边思考边说话: 能够同时生成文本和音频

3、流式音频输出: 支持流式音频输出

4、"Any Model Can Talk" 方法: Mini-Omni 可以将语音交互能力添加到其他模型中，为其他模型赋能

github：https://github.com/gpt-omni/mini-omni2

4. F5-TTS + QWEN

https://github.com/SWivid/F5-TTS

https://github.com/lucasnewman/f5-tts-mlx

1. pip install f5-tts-mlx

2. python -m f5_tts_mlx.generate --text "Hello world"

3. afplay output.wav ()

关于作者

做一只爬的最久的乌龟，保持学习保持好奇，即使慢一点，遇到一点困难，只要最后能到达终点，又有什么关系呢。

毕竟人生没有白走的路，每一步都算数。

http://mp.weixin.qq.com/s?__biz=MjM5MTM1OTk4NQ==&mid=2650332206&idx=1&sn=49e0091f823fa4534a36a999a439b85e

前端程序设计

专注前端最前沿技术，数据可视化，web3d。偶尔插播生活和艺术。

最新文章

周末跑通了两个端到端的语音模型Fish-Speech和GLM-4-Voice

给3D数字人互动项目装上精美的聊天组件，开始实现多模态聊天

ten-agent: 又一款王炸级的开源端到端语音模型

将3D人物从Character Creator 导出到 Blender的终极自动设置指南

又给3D 数字人互动项目找了一个炫酷的动态场景

2025 年顶级网页设计趋势

3D数字人互动与数字孪生的完美结合

终于用pocketbase 完成了3D数字人工坊的制作

Ultravox v0.4.1：逼近GPT-4o的一款开源多模态实时语音模型

Windsurf Editor: 又一款可以取代cursor的AI代码编辑器，全免费使用Claude 3.5

创业项目13： TANGO的落地，上传克隆声音和动作视频生成视频数字人的漂亮界面

Threejs: 利用实例着色器实现炫酷的烟花效果

开源：在人物和背景之间添加文字，快速生成设计效果text-behind-image

R3F 制作的3D数字人流体粒子化组件FlowFieldParticles

分享几个最近看到的Threejs炫酷效果，附源码地址

又一款开源的实时语音交互的视频数字人，效果非常不错，附测试地址

零触摸、自然语音对话的无感交互应用方案

给自己的3D数字人配一个炫酷的启动界面，文后附一个好玩的彩蛋游戏

腾讯混元，再次开源！

MiniMates: 可以在普通电脑上实时运行的开源视频数字人，支持实时语音对话

Hertz-dev：首个开源的超低延迟的实时交互语音对话模型

让3D数字人像真人一样流畅对话、及时响应，实现超低延迟实时对话

Threejs: 给我们的3D数字人造一个炫酷的歌曲点播舞台

Wonder Studio 以突破性技术从视频中提取3D 数字人脸部、身体动画

AiOS：从视频中提取数字人动作导入Blender中处理的开源模型

使用 Three.js BatchedMesh 和 WebGPURenderer 进行交互式 3D场景

用VitePress整合一个AI工具集合站点

Ultralight Digital Human：第一款完全开源的实时视频数字人

端到端语音对话&多模态模型开发应用的几种开源方案

AI在语音识别模型方面最新的几种开源案例

LongVU: Meta AI开源的对长视频理解的多模态模型

NotebookLlama: Meta开源的PDF转有声博客

使用 MediaPipe 和 Three.js 的网络摄像头创建 3D 场景中的手势控制器

Anthropic让AI像人一样用电脑，支持API调用

开源的文生视频Genmo升级后效果炸裂

制作3D数字人脸部52个ARKit形态键的标准动画教程

用AI给微信公众号制作做SVG动画

easegen: 开源AI+数字人课程制作项目，非常牛了

TANGO ：开源的Heygen？支持面部、唇形同步和肢体运动视频

VirtualWife：支持B站直播的开源3D数字人互动项目

创业项目12: AI+3D 在电商行业的自动化解决方案

借助cursor完成平遥古城元宇宙项目中的小地图功能

整理一下跟3D数字人语音互动的几种交互方式

Threejs制作的在线2D/3D动画、视频编辑器，号称视频界的photoshop

基于WebGL的3D数字人互动项目融入全息投影的炫酷场景中

使用 Next.js 和 Three.js 创建3D网站作品集项目教程

我用Bolt直接修改开源的元宇宙场景代码

炫酷的Blender动画效果+一组3D美女模型

开源：创建带有中文气泡的连环画

UniMuMo：通过文本或音乐生成3D数字人的动作

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉