【AI】智谱推出端到端情感语音模型GLM-4-Voice

文摘   2024-10-29 15:15   河北  
点击上方  关注我们吧


近日,智谱AI在“智谱清言”App中推出了其最新的端到端情感语音模型 GLM-4-Voice

该模型不仅强调高效的情感理解与表现,还支持中英文以及多种方言,赋予用户自然流畅的互动体验。

情感表达与多样化互动

GLM-4-Voice 以其强大的情感表达能力为核心,不仅能通过音调、节奏的变化传达多种情绪状态,还可在对话中实现情感共鸣,增强语音的互动性和感染力。

例如,它能够自如地表达高兴、愤怒、悲伤等情绪状态,从而让用户在与 AI 的互动中感受到自然、真实的对话体验。

此外,GLM-4-Voice 还支持实时的语速调节,以适应不同场景的需求,例如在对话中要求其“快一点”或“慢一点”,使其可以适应用户不同的听取需求。

这种个性化的调节不仅带来便利,更让 AI 与人类的交流显得更加灵活。

支持多语言与方言,拓展应用边界

值得注意的是,GLM-4-Voice 不仅支持标准的中英文对话,还涵盖了多个常用的中国地方方言,如粤语、重庆话、北京话等,力图为用户提供更贴近生活的语言体验。

这种多语言、方言支持的功能不仅拉近了 AI 与不同地区用户的距离,同时在诸如客户服务、语言教育等应用场景中具有广阔的前景。

用户随时打断与指令调整,互动更加灵活

GLM-4-Voice 在实时互动方面进行了创新性设计,允许用户在语音对话中随时打断并发出新指令,使其能够根据用户的需求灵活调整对话内容或语音风格。

比如在对话过程中用户可以插入新问题,甚至可以打断当前回答来调整方向,这种设计使得对话更加自然,同时赋予了用户更强的掌控感。

这种随时打断与指令调整的功能在客户服务、智能助手等领域尤其实用,让用户真正能够实现“一问即答”的流畅体验。

即将上线的视频通话支持功能

智谱AI透露,“智谱清言” App 将在后续升级中引入视频通话功能。

这项功能旨在结合文本、音频和视频模态的跨模态互动,为用户提供视听同步的沉浸式体验。

未来,用户可以在对话时不仅“听见” AI,还可以“看见” AI,使得情感表达更加丰富,进一步提升互动的真实感。

这项升级将为情感语音技术的应用场景拓展出更多可能,例如虚拟陪伴、在线教育和客户支持等。

开源计划与技术开放,促进生态共建

智谱还宣布 GLM-4-Voice 模型将向外界开源,这是智谱首次将其端到端多模态情感语音模型向公众开放。

此次开源将为开发者和研究者提供直接接触和定制这一模型的机会,不仅促进了技术的透明度和开放性,也有助于推动情感 AI 语音技术的创新与发展。

通过开放代码,智谱希望与技术社区共同探索更多应用场景,并在未来构建更具广泛影响力的生态体系。

对此,各位读者有什么想说的?

欢迎留言,一起交流你的观点与看法!


合作与交流

您的支持 · 我们的动力

诚邀投稿:


欢迎各位粉丝、朋友们提供稿件(前沿科技进展、科技产品动态、经典文献解读、技术原理科普、行业市场分析、科研生活感悟、社会民生观察等)。联系微信号:133 9674 1340,并请注明详细联系信息,对入选推送稿件者,我们会及时联系您,以微信红包形式给予报酬


对前沿科技感兴趣的朋友,可以点击关注公众号,订阅感兴趣的话题专栏!

也可添加下述小编微信!小编邀请您一起加入“前沿科技观察”群聊!

让我们每天下午4点,一起探索全球最前沿的科技资讯!开启你的科技之旅,与志同道合的伙伴一同品味科技发展带来的时代红利,创新型的未来!



编辑|前沿科技观察

供稿|科创产业观察

审核|前沿科技观察






前沿科技观察
聚焦科学前沿、着眼科技热点!理工博士,用最接地气的文字,传递最“好玩”的科技讯息!
 最新文章