让3D数字人像真人一样流畅对话、及时响应,实现超低延迟实时对话

职场   2024-11-04 18:32   北京  

周末的时候插空听了腾讯大神“刘连响”的一场直播,主要讲了打通Dify/Coze的AI实时语音对话方案,通过RTC的方案做到实时语音对话,不需要每次按按钮启动对话,而且随时可以插入和中断对话。整理了一下笔记内容。等我腾出手来必然会应用到我的3D数字人互动方案中。

它主要解决下面3个问题:

  • AI 语音对话存在的问题

  • AI语音对话如何降低延迟

  • AI语音对话如何打通Dify


下面是我体验的实时对话界面,感觉特别好,随时跟AI聊天,可随时插入打断语音对话。


大神的PPT分享一下:


目前我的3D数字人互动方案语音处理方式是websocket/http的方式,延迟方面还是有些不满意的地方,而作者提到的RTC方案可以达到更低的延迟。


ASR延迟的原因就是不知道什么时候中断。

目前开通TRTC AI 需要企业用户。


Prompt 优化:

学一下作者在Dify中的提示语:


总结:

有了这套方案,终于可以实现之前想做的给AI打电话功能了。


有相同兴趣爱好的可通过加星球的方式添加作者微信。加入后查看置顶评论可加微信交流。
关于作者

做一只爬的最久的乌龟,保持学习保持好奇,即使慢一点,遇到一点困难,只要最后能到达终点,又有什么关系呢。
毕竟人生没有白走的路,每一步都算数。


前端程序设计
专注前端最前沿技术,数据可视化,web3d。偶尔插播生活和艺术。
 最新文章