周末的时候插空听了腾讯大神“刘连响”的一场直播,主要讲了打通Dify/Coze的AI实时语音对话方案,通过RTC的方案做到实时语音对话,不需要每次按按钮启动对话,而且随时可以插入和中断对话。整理了一下笔记内容。等我腾出手来必然会应用到我的3D数字人互动方案中。
它主要解决下面3个问题:
AI 语音对话存在的问题
AI语音对话如何降低延迟
AI语音对话如何打通Dify
下面是我体验的实时对话界面,感觉特别好,随时跟AI聊天,可随时插入打断语音对话。
大神的PPT分享一下:
目前我的3D数字人互动方案语音处理方式是websocket/http的方式,延迟方面还是有些不满意的地方,而作者提到的RTC方案可以达到更低的延迟。
ASR延迟的原因就是不知道什么时候中断。
目前开通TRTC AI 需要企业用户。
Prompt 优化:
学一下作者在Dify中的提示语:
总结:
有了这套方案,终于可以实现之前想做的给AI打电话功能了。