整理一下跟3D数字人语音互动的几种交互方式

职场 2024-10-12 16:50 北京

看到一个开源项目，是通过耳机上的触控来控制代码，所以想到之前客户提出的几种跟3D数字人语音互动的方式。

智能音箱方案

通过关键词比如“小爱同学”来唤醒设备的语音交互，当数字人说完话之后，重新弹出语音监听功能，直到通过按键或关键词比如“停止回答”来终端整个对话。

这是我们目前APP端采取的方案，目前比较好用的唤醒功能还是用讯飞的API，但有个数限制，大概10个唤醒关键词。仅支持APP或应用程序。其它方案还没尝试过。

这个方案有个弊端就是在人多嘈杂的环境下需要做一些噪音屏蔽处理。

2. 屏幕按钮点击

这是大多数3D数字人交互的方案，也是成本最低的方案，通过点击按钮，启动录音，然后将语音流实时识别为文字，但监听到没有声音继续输入的时候就把转换的文字发给大模型。也是需要做声音屏蔽处理。每次说话都要点一下，类似微信发送语音聊天。

这个方案还有一个变体就是长按语音转文字后文字出现在聊天框，待用户修改确认是这些文字后再发送，这属于谨慎类的用户。

这是我们目前H5 端的方案，用的也是讯飞的实时语音转文字，支持绝大多数浏览器。

3.打电话方案

这也是比较自然的一种聊天方式。这种方式可以借鉴KK做的聊天小程序，这也是客户推荐我的一款很好玩的数字人小程序。不需要每次点击，就启动后正常聊天就好。

4. VAD声音活动检测

这也是最近看到的一个OpenAI实时API的绝佳用例，OpenAI实时API结合RAG实现的一个【可以与PDF对话的实时语音AI代理】：voice-chat-pdf 支持手动（按键说话）、VAD（声音活动检测）两种模式支持随时打断AI代理

https://github.com/run-llama/voice-chat-pdf

5.硬件设备启动语音

之前文章里提到的，现在很多话筒上带有按钮可以通过代码来接收话筒上的按键。

还有就是今天介绍的用耳机来控制代码执行是否开始和关闭录音。

这里是它的开源代码。

https://github.com/EtherDream/headphone-morse-transmitter

很多耳机可以发送 ⏮️ ⏸️ ⏯️ 命令，例如 Airpods，按一下可暂停或继续，按两下可播放下一曲，按三下可播放上一曲。

只用一个耳机即可控制是否开启语音实时转换。

我们的基于webGL的数字人互动项目还在不断优化中，有需要咨询相关报价的可以先入群。

目前已经建立了一个很多人的报价微信群，为保证群的质量，目前只能采取付费入群的形式啦，所以目前限制在我的星球粉丝中。已在星球的粉丝可直接申请入群。

有相同兴趣爱好的可通过加星球的方式添加作者微信。加入后查看置顶评论可加微信交流。

关于作者

做一只爬的最久的乌龟，保持学习保持好奇，即使慢一点，遇到一点困难，只要最后能到达终点，又有什么关系呢。

毕竟人生没有白走的路，每一步都算数。

http://mp.weixin.qq.com/s?__biz=MjM5MTM1OTk4NQ==&mid=2650331705&idx=1&sn=c1e144eecff79083677448a568b5b56b

前端程序设计

专注前端最前沿技术，数据可视化，web3d。偶尔插播生活和艺术。

最新文章

周末跑通了两个端到端的语音模型Fish-Speech和GLM-4-Voice

给3D数字人互动项目装上精美的聊天组件，开始实现多模态聊天

ten-agent: 又一款王炸级的开源端到端语音模型

将3D人物从Character Creator 导出到 Blender的终极自动设置指南

又给3D 数字人互动项目找了一个炫酷的动态场景

2025 年顶级网页设计趋势

3D数字人互动与数字孪生的完美结合

终于用pocketbase 完成了3D数字人工坊的制作

Ultravox v0.4.1：逼近GPT-4o的一款开源多模态实时语音模型

Windsurf Editor: 又一款可以取代cursor的AI代码编辑器，全免费使用Claude 3.5

创业项目13： TANGO的落地，上传克隆声音和动作视频生成视频数字人的漂亮界面

Threejs: 利用实例着色器实现炫酷的烟花效果

开源：在人物和背景之间添加文字，快速生成设计效果text-behind-image

R3F 制作的3D数字人流体粒子化组件FlowFieldParticles

分享几个最近看到的Threejs炫酷效果，附源码地址

又一款开源的实时语音交互的视频数字人，效果非常不错，附测试地址

零触摸、自然语音对话的无感交互应用方案

给自己的3D数字人配一个炫酷的启动界面，文后附一个好玩的彩蛋游戏

腾讯混元，再次开源！

MiniMates: 可以在普通电脑上实时运行的开源视频数字人，支持实时语音对话

Hertz-dev：首个开源的超低延迟的实时交互语音对话模型

让3D数字人像真人一样流畅对话、及时响应，实现超低延迟实时对话

Threejs: 给我们的3D数字人造一个炫酷的歌曲点播舞台

Wonder Studio 以突破性技术从视频中提取3D 数字人脸部、身体动画

AiOS：从视频中提取数字人动作导入Blender中处理的开源模型

使用 Three.js BatchedMesh 和 WebGPURenderer 进行交互式 3D场景

用VitePress整合一个AI工具集合站点

Ultralight Digital Human：第一款完全开源的实时视频数字人

端到端语音对话&多模态模型开发应用的几种开源方案

AI在语音识别模型方面最新的几种开源案例

LongVU: Meta AI开源的对长视频理解的多模态模型

NotebookLlama: Meta开源的PDF转有声博客

使用 MediaPipe 和 Three.js 的网络摄像头创建 3D 场景中的手势控制器

Anthropic让AI像人一样用电脑，支持API调用

开源的文生视频Genmo升级后效果炸裂

制作3D数字人脸部52个ARKit形态键的标准动画教程

用AI给微信公众号制作做SVG动画

easegen: 开源AI+数字人课程制作项目，非常牛了

TANGO ：开源的Heygen？支持面部、唇形同步和肢体运动视频

VirtualWife：支持B站直播的开源3D数字人互动项目

创业项目12: AI+3D 在电商行业的自动化解决方案

借助cursor完成平遥古城元宇宙项目中的小地图功能

整理一下跟3D数字人语音互动的几种交互方式

Threejs制作的在线2D/3D动画、视频编辑器，号称视频界的photoshop

基于WebGL的3D数字人互动项目融入全息投影的炫酷场景中

使用 Next.js 和 Three.js 创建3D网站作品集项目教程

我用Bolt直接修改开源的元宇宙场景代码

炫酷的Blender动画效果+一组3D美女模型

开源：创建带有中文气泡的连环画

UniMuMo：通过文本或音乐生成3D数字人的动作

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉