2024年10月24日下午,由中国计算机学会(CCF)语音对话与听觉专委会组织的CNCC技术论坛“多模态大模型时代的语音音频技术:带来哪些机遇与挑战?”在浙江省东阳市横店圆明新园成功举办。CCF语音对话与听觉专委秘书长、中国科学技术大学凌震华教授担任本次论坛主席;CCF语音对话与听觉专委副秘书长、清华大学副研究员吴志勇担任论坛共同主席。
论坛开幕
凌震华教授主持本次论坛
俞凯教授致辞
专题报告
陈驰研究员
本次论坛首先由特邀嘉宾清华大学客座研究员、启元实验室助理研究员陈驰发表题为《迈向高效端侧多模态大模型》的专题报告。陈驰研究员介绍了首个单图、多图与视频理解性能达GPT-4V级的端侧模型系列MiniCPM-V。通过统一视觉编码框架实现同时支持单图理解、多图联合理解、多图ICL及实时视频理解等功能,并具有领先的OCR能力、可信多模态行为及多语言支持等特性。模型具有更高知识密度,实现端侧设备上轻量化运行与高性能表现,展现了多模态大模型的实用化前景。
张超教授
清华大学助理教授、伦敦大学学院荣誉副教授张超进行了题为《SALMONN系列音视频大语言模型的研发进展》的报告。张超教授介绍了首个通用听觉大语言模型SALMONN。该模型通过将LLM直接与音频和语音编码器连接,实现对语音、音频事件、音乐、声源方位等听觉元素的通用感知和理解,具备语音指令、多语言、跨模态推理等高级能力。还通过视觉编码器及多时空精度因果Q-Former结构,实现认知导向的音视频感知,是第一个能“看” 短视频的多模态大模型。还介绍了近期SALMONN项目的一些新进展,包括用自然语言的方式从不同方面描述听感,进行基于语言的音频质量评估;以及新提出的多轮DPO强化学习算法,使新提出的7B Video-SALMONN 2模型在音视频字幕质量方面超过了商用的GPT-4o和Google Gemini 1.5 Pro大模型。
陈谐教授
上海交通大学副教授、博士生导师陈谐发表了题为《基于音频的自监督学习进展及其与大语言模型的结合》的报告。报告中,陈谐教授介绍了音频、情感语音和音乐数据自监督学习的最新进展。通过引入语句和帧级别联合学习,在音频分类、语音情感识别和音乐理解方面取得显著提升。进而将语音表征学习模型与大语言模型结合,扩展其在语音识别和空间音频理解等方面的多模态能力。研究表明,强大的音频表征模型即使通过简单结合,也能达到优异性能。
Panel环节由论坛主席凌震华主持,清华大学长聘副教授、智源青年科学家、面壁智能联合创始人兼首席科学家刘知远,香港中文大学(深圳)副教授武执政,北京希尔贝壳科技有限公司创始人兼CEO卜辉,以及俞凯、陈驰、张超、陈谐,就本次论坛的主题“多模态大模型时代的语音音频技术:带来哪些机遇和挑战”,进行了多轮深入的讨论和交流。
凌震华教授首先邀请各位嘉宾分享他们各自在语音多模态大模型上最近的研究体会和研究思路,并展望多模态大模型的未来研究方向和趋势。
俞凯教授认为:语音离散编码作为基础支撑技术,是语音语言模型融合的关键部分,值得深入研究;依靠通用模型同时解决多种语音任务难题、实现感知认知一体化是重要趋势;同时,资源受限情况下的小模型研发也会在通用模型的指导下获得新的机遇。
刘知远教授表示:大模型时代,赋予语音音频领域新的使命,面向多模态建模的目标有很多新的课题,需要我们共同探索解答;大模型和语音模态的结合,不仅是语音相关研究的一个机会,也是进一步提升大模型性能和拓宽应用场景的一次机会;对多模态任务建立文本、图像、语音等信息融合和处理的统一框架,以及实现大模型和外部环境之间的多通道的双工交互,是未来可以研究的一些方向。
陈驰研究员提到:在更多模态融合的场景下,会天然产生大量新的应用需求和交互范式,如何让大模型更好更灵活地适应到这些新的范式,是亟待研究的方向;特别是端侧场景对目前大模型的高性能流式推理和实时交互提出了更高的要求;除此之外,多模态大模型如何赋能语音合成、语音分离这些传统的语音任务,也是很有意义的研究方向。
张超教授指出:任务的通用性是大模型的关键特性之一;这一特性使得诸多传统的上下游语音处理任务能够在同一模型内得到有效的动态协调融合,从而简洁高效地实现了自然语音交互中“感知-认知-生成”的全链路;由此,大模型为语音处理领域带来了全新的研究任务和广阔的研究机会。
陈谐教授认为:在多模态背景下,大量应用场景下的数据缺失更严重,这是未来多模态研究中的一个无法回避的问题;比如针对小语种任务以及相关副语言信息提取,在多模态数据缺失的现实约束下,迫切需要投入资源和精力以取得实质性的突破。
武执政教授提到:目前团队在做一个高质量的语音表现力合成的数据集,在这个过程中他们发现当前模型表现出来的很多问题,特别是大家目前非常关注的幻觉现象和训练数据有很强的相关性;因此针对语音多模态大模型来说,如何构建一套自动的海量数据筛选的流程,并整合更有效的音频分离工具去除目前语音数据中大量存在的噪声、音乐、干扰语音等因素也是很重要的一点。
AISHELL CEO卜辉认为:当前所面临的挑战并非仅仅局限于多模态的融合问题,对于人类自身所蕴含的诸多信息,仍有待进一步深入挖掘,比如副语言信息、脑电信号信息以及病理性发音等方面的信息;多模态大模型的发展也为我们带来了诸多机遇,使得语音技术能够拥有更为丰富多样的应用场景,还推动了相关人才的发展,吸引了更多人关注语音技术并加入到语音技术社区当中。
结 语