首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

开源实时语音交互数字人，支持声音克隆和自定义形象，首包延迟低至3秒。

科技 2024-11-14 20:01 山东

今天这个开源项目挺有意思。

低延迟的大模型+数字人，所以有了一个响亮的概念，实时语音交互数字人。

相当于是在大模型回答问题的同时，也在同步驱动TTS生成音频，音频也在同步驱动图片口型，所以整个链路就会非常快的运行，完成实时的低延迟数字人功能。

扫码加入AI交流群

获得更多技术支持和交流

（请注明自己的职业）

项目简介

VideoChat是一个实时语音交互数字人开源项目，为用户提供实时、低延迟的数字人AI问答体验。支持跨平台浏览器使用，确保在不同设备间的无缝连接。可以克隆声音、自定义数字人形象，有两套方案：端到端语音方案（GLM-4-Voice - THG）和级联方案（ASR-LLM-TTS-THG）。

DEMO

先来一段生成好的数字人视频。

下面这个视频演示了整个交互的过程，大模型回答的过程中，也可以看到右侧的数字人在实时输出。

但是在使用中，也发现一些问题，像下面这个视频演示的这样。

VideoChat的实时数字人是分段去完成然后拼接的，如果驱动速度跟不上的话，会有卡壳的现象。还有个很重要的问题，卡壳没事，可以停在那里等一等，但现在是有点错乱，希望作者可以调整下。

如果大家用这个项目的时候介意这一点，也可以自己动手改改，毕竟自力更生丰衣足食。

技术选型

ASR（自动语音识别）：FunASR
LLM（大语言模型）：Qwen
端到端MLLM（多模态大语言模型）：GLM-4-Voice
TTS（文本转语音）：GPT-SoVITS, CosyVoice, edge-tts
THG（虚拟人生成）：MuseTalk

项目链接

https://www.dongaigc.com/p/Henry-23/VideoChat

寻找更多开源项目，就到懂AI（dongai.ai）

软件开发，AI项目快速落地，专业团队高质量交付。

关注「开源AI项目落地」公众号

与AI时代更靠近一点

关注「AGI光年」公众号

获取每日最新资讯

关注「向量光年」公众号

加速全行业向AI转变

开源AI项目落地

分享有价值的开源项目，并且致力于Ai项目的落地。

最新文章

11.6k星星！Facebook开源的儿童手绘AI转动画项目，输出稳定，儿童艺术创作赛道可落地。

阿里开源的声音克隆TTS重磅升级，CosyVoice2支持流式输出，更加流畅自然。

4k星星！一个容器化的向量检索RAG系统，支持多模态输入、混合搜索和知识图谱构建。

5.5k星星！开源AI漫画翻译神器，有些漫画永远都不会被翻译，因此这个项目诞生了。

这个AI设计软件厉害了，只要一张产品图就能生成专业的电商主图，爆款产品这不就来了嘛。

11.7k星星！Sora发布了，但别忘了还有个北大开源的Open-Sora，AI视频未来之星一直在更新迭代。

GPT-4o语音交互的开源实现，一个端到端可以直接理解音频的多模态大模型。

超强开源抢先看！新形态数字人，一张照片就能替换掉视频里的说话人，动作表情口型都不变！

这家AI写的营销文案实在是太强了，比自己做的提示词工程省时省力又好用。

好玩！！开源免费AI聊天机器人硬件，0基础手把手教学制作现实AI女友、儿童陪伴玩偶。

一分钟了解OpenAI发布会（1/12）-你会订阅GPT200美金一个月的会员吗？

3.7k星星，开源论文翻译系统，能自动处理公式图表，终于再也不用开翻译会员了。

46.6k星星！最强开源AI集合系统，一键部署全网AI工具都能直接用，UI简直是视觉盛宴！

这个工具厉害了！一分钟能做上百个sku主图，作为设计师的你还在加班吗？

7.3k星星！AI开源视频自动添加字幕和配音，Netflix级准确度。

GPTs进阶版已开源！通过大模型来访问并操作浏览器，网站验证码都能自动填写。

18.5k星星！一个会浏览网页收集信息的开源AI编程助手，还能把复杂指令拆分成多步骤完成。

蚂蚁集团开源首个音频驱动图片半身数字人项目，肢体动作和手型优化太强了！

一个开源的markdown转图片工具，用AI快速输出精品海报，目前AI海报最好的落地路径。

用了酷家乐旗下的这款AI设计软件，设计师再也不用担心加班。

阿里发布GPT-o1的开源实现，用AI解决没有标准答案的复杂问题。

千万粉丝科技自媒体大V何同学，抄袭的原来就是这个开源程序。

港大浙大联合开源交互式AI图片编辑系统，平替PS超贵的AI功能，简单到看一眼就会用。

强大！一个开源多智能体管理框架，灵活处理复杂的多轮对话，真正实现AI全能王。

15.5k星星！开源AI搜索引擎，轻松本地部署替代传统搜索引擎。

这个AI海报设计软件解决了我的刚需，今年圣诞元旦春节做海报都不愁了！

实测！生数科技联合清华大学发布Vidu 1.5，AI视频大模型再现划时代功能，主体一致性世界第一。

微软开源多智能体角色模拟，让AI头脑风暴成为现实，从此你的群聊里就有了社会上各行各业的人。

开源实时语音交互数字人，支持声音克隆和自定义形象，首包延迟低至3秒。

爆火开源推荐！基于Next.js的开源AI聊天机器人模板，一键定制部署AI对话软件。

开源人像视频编辑工具，3D高斯的完美应用，功能效果值得落地一个AI视频编辑软件。

这个开源项目落地场景非常多！基于Flux的实时AI绘画，毫秒级生成角色一致性图片。

Claude Artifacts的开源实现，Llama3驱动的AI程序员，瞬间做一个软件还能实时渲染。

开源本地实时语音AI，三分钟看懂下一代AI语音助手的实时多模态交互

5.7k星星！开源文档解析黑马项目，快速解析文档导出所需格式

本周爆火开源！无代码数据爬虫，2分钟训练机器人模拟人类自动爬取web数据

这个专注电商行业的AI设计软件太强了！

我们打造了一个国内信息最全的AI指南网站，让你找到最适合自己的AI开源项目。

字节开源超逼真3D数字人，15分钟训练一个高质量数字人形象。

字节发布音频驱动口型数字人，无需训练，效果完美平替Heygen。

身边的小伙伴都在用，你不会是最后一个知道的吧？

全方位实测！腾讯最新推出会思考的知识库ima，它的AI搜索会产出最优质的内容。

微软开源纯视觉屏幕解析工具，GUI时代真的来了！

4.3k星星，开源版OCR神器，支持复杂文档布局和表格，利用GPT-4o-mini识别准确度超高

本月最强开源发布！Genmo开源AI视频模型，100亿参数，效果秒杀RunWay和Luna！

AI在电商行业的应用典范，美间真的在AI设计上用心了。

英伟达最新提出ComfyGen，利用大模型自动生成Comfyui工作流，Comfyui再无难度

复旦团队开源Hallo2，音频驱动图片生成4K分辨率小时级肖像视频，对比第一代提升巨大

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

这个AI工具在双十一发挥大用途，设计师可以抛弃PS了。

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉