2024云栖|不变的追求,探觅智能应用场域的新可能

文摘   科学   2024-09-06 13:33   浙江  


有云栖应最惜,一年一度一归来。

在语音AI快步迈入大模型的时代,今年的云栖大会颇有看头。通义实验室语音团队除了向大家汇报我们近一年的语音平台产品更新,还会发布几款备受期待的新语音大模型,借此机会,与各位多模态大模型领域从业者爱好者相互切磋和品鉴。

#Part1 论坛

主题1‍‍‍‍‍‍‍‍



语音+大模型,探索智能应用场域的新可能

摘要:语音交谈作为人类最常使用的交互模式,是连接人与智能世界的关键。在本论坛主题中,我们将发布通义语音大模型的升级系列模型和产品,着重探讨产品如何形成“语音+大模型”的场景化应用,展示语音理解、语音交互和语音翻译等技术在多场景应用中的突破,以及产品如何解决这些场景落地难题,为用户带来耳目一新的智能交互体验。

演讲嘉宾

鄢志杰 通义实验室语音团队负责人

时间

9月19日 13:30-17:30

地点

杭州云栖小镇 D1-4


主题2



《大模型时代的音频理解、生成和多模态》

摘要:以ChatGPT为开端,大模型以及多模态大模型成为了AI的大势。本演讲将会介绍通义实验室在大模型时代下的音频理解、音频生成以及音频多模态大模型的相关研究和开源工作。包括音频理解大模型SenseVoice、音频生成大模型CosyVoice,以及最新的音频多模态大模型。其中SenseVoice用于高精度的多语种语音识别、情感识别和音频事件检测;CosyVoice则用于自然语音生成,并支持多种语言、音色和情感控制,在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行能力方面表现卓越。本次分享,我们会发布音频多模态大模型MinMo和实时多语言语音翻译大模型Gummy。

演讲嘉宾

张仕良 通义实验室算法科学家

杨宝嵩 通义实验室算法科学家

时间

9月19日 14:00-17:30

地点

杭州云栖小镇 B3-3

‍‍‍


#Part2 模型互动展览

互动展区
‍‍


1.FunAudioLLM:音频理解与生成大模型

2.音频多模态大模型

3.通义听悟API
时间

9月19日-9月21日全天 


地点

杭州云栖小镇 1号馆和2号馆‍‍‍‍‍‍‍









👇点击阅读原文,可直达领票链接

阿里语音AI
阿里巴巴通义实验室语音团队,基于多模态大模型语音识别、语音合成、自然语言理解等 AI 技术,实现“能听、会说、懂你”式的智能人机交互体验。