CNCC | 多模态大模型时代的语音音频技术：机遇与挑战并存

学术 2024-09-14 17:10 北京

CNCC2024

论坛简介：

多模态大模型给语音音频技术带来哪些机遇与挑战？

举办时间：10月24日13:30-17:30

地点：秋苑-澄心堂

注：如有变动，请以官网(https://ccf.org.cn/cncc2024)最终信息为准

语音音频技术是人工智能的重要分支，它让计算机能够理解和生成人类的语音和各种音频，实现与人类自然、流畅、高效的交互。随着多模态大模型的不断发展，语音音频技术正面临前所未有的发展机遇，同时也伴随一系列挑战。

本论坛将聚焦语音音频技术在新一代人工智能及多模态大模型背景下的发展趋势和前沿问题，从语音及音频理解、语音音频与多模态大模型结合、面向AIGC的语音及音频生成、相关技术在人机交互服务中的应用等方面展开思辨和讨论。本论坛邀请了来自清华大学、上海交通大学、启元实验室、中国科学技术大学、香港中文大学（深圳）、希尔贝壳、面壁智能、思必驰等国内外知名语音及音频处理技术专家学者和业界代表，分享他们在语音音频技术领域的最新研究成果和经验，以及对未来技术发展方向的展望。本论坛旨在集思广益，为参与者提供一个交流学习、探索创新、寻求合作的平台，促进学术界与产业界的交流合作，共同推动语音音频技术的创新发展。

论坛亮点

聚焦语音音频技术在新一代人工智能及多模态大模型背景下的发展趋势和前沿问题。

邀请国内外知名专家学者从学术与产业角度深入探讨语音音频技术如何应对新的机遇与挑战。

论坛日程

顺序

主题

主讲嘉宾

单位

MiniCPM-V：端侧可用的 GPT-4V 级单图、多图、视频多模态大模型

陈驰

启元实验室/清华大学

SALMONN：认知导向的视听觉大语言模型

张超

清华大学

基于音频的自监督学习进展及其与大语言模型的结合

陈谐

上海交通大学

Panel环节：
多模态大模型背景下，语音音频技术面临哪些机遇与挑战？

凌震华

中国科学技术大学

俞凯

上海交通大学/思必驰

刘知远

清华大学/面壁智能

陈驰

启元实验室/清华大学

张超

清华大学

陈谐

上海交通大学

武执政

香港中文大学（深圳）

卜辉

希尔贝壳科技有限公司

论坛主席及嘉宾介绍

论坛主席

凌震华

CCF语音对话与听觉专委秘书长，中国科学技术大学教授

中国科学技术大学信息学院教授，语音及语言信息处理国家工程研究中心副主任，入选教育部CJ学者校企联聘学者，主要从事语音信号处理、自然语言处理等方向的研究。

论坛共同主席

吴志勇

CCF语音对话与听觉专委副秘书长，清华大学副研究员/博导

清华大学深圳国际研究生院副研究员。研究兴趣为智能语音交互技术，曾获教育部、北京市、深圳市科技进步等奖励。获深圳市教学成果奖、清华大学良师益友荣誉称号、CCF语音对话与听觉专委卓越服务者奖励。

论坛讲者

陈驰

清华大学客座研究员，启元实验室助理研究员

主要研究多模态大模型与自然语言处理，在ACL、EMNLP等顶级会议发表多篇论文，多个顶级期刊和会议审稿人。参与国家重点研发计划和新一代人工智能重大项目。

报告题目：MiniCPM-V：端侧可用的GPT-4V级单图、多图、视频多模态大模型

报告摘要：多模态大模型迅速发展，成为人工智能领域研究热点，但其实用化仍面临诸多挑战。本报告介绍首个单图、多图与视频理解性能达GPT-4V级的端侧模型系列MiniCPM-V。通过统一视觉编码框架实现同时支持单图理解、多图联合理解、多图ICL及实时视频理解等功能，并具有领先的OCR能力、可信多模态行为及多语言支持等特性。模型具有更高知识密度，实现端侧设备上轻量化运行与高性能表现，展现了多模态大模型的实用化前景。

张超

清华大学助理教授，伦敦大学学院荣誉副教授

研究方向为多模态语音语言处理技术和计算认知神经科学。曾任剑桥大学副研究员、京东语音联合负责人、谷歌高级研究科学家等职务。入选国家高层次人才计划青年项目。

报告题目：SALMONN：认知导向的视听觉大语言模型

报告摘要：文本大语言模型（LLM）的一个关键缺陷在于其语言认知与物理世界的多模态信息几乎无关。本报告介绍首个通用听觉大语言模型SALMONN。通过将LLM直接与音频和语音编码器连接，实现对语音、音频事件、音乐、声源方位等听觉元素的通用感知和理解，具备语音指令、多语言、跨模态推理等高级能力。还通过视觉编码器及多时空精度因果Q-Former结构，实现认知导向的音视频感知，是第一个能“看”短视频的多模态大模型。

陈谐

上海交通大学副教授/博导

上海交通大学计算机系副教授，博导，获国家海外高层次人才青年项目。博士毕业于剑桥大学，先后在剑桥从事博士后研究、美国微软研究院任高级和资深研究员，主要研究方向为智能语音信号处理，发表论文90余篇。

报告题目：基于音频的自监督学习进展及其与大语言模型的结合

报告摘要：近年来，自监督学习在音频信号处理领域取得显著进展，展示了从海量无标签音频数据中学习潜在结构信息的强大能力。报告将介绍音频、情感语音和音乐数据自监督学习的最新进展。通过引入语句和帧级别联合学习，在音频分类、语音情感识别和音乐理解方面取得显著提升。进而将语音表征学习模型与大语言模型结合，扩展其在语音识别和空间音频理解等方面的多模态能力。研究表明，强大的音频表征模型即使通过简单结合，也能达到优异性能。

Panel嘉宾

俞凯

CCF语音对话与听觉专委主任、上海交通大学特聘教授，思必驰公司创始人、首席科学家

从事对话式人工智能研究和产业化工作，国家WR计划科技创新领军人才，NSFC优青，上海市东方学者特聘教授。

刘知远

清华大学长聘副教授，智源青年科学家，面壁智能联合创始人、首席科学家

主要研究自然语言处理，被引超过4.9万次，曾获教育部自然科学一等奖，入选国家青年人才项目、《麻省理工科技评论》中国区35岁以下科技创新35人、中国科协青年托举工程。

武执政

香港中文大学（深圳）副教授/博导

国家级青年人才，发起Merlin与Amphion开源系统，组织多次国际评测，多次获最佳论文。IEEE/ACM TASLP、SPL等期刊编委、SLT2024大会主席。

卜辉

北京希尔贝壳科技有限公司创始人兼CEO

CCF语音对话与听觉专委常委，发布多个开源项目，形成数据+智能语音技术矩阵方案，组织多次国际顶会语音赛事活动。获NCMMSC及APSIPA个人贡献奖、CCF语音对话与听觉专委卓越服务者奖励。

关于CNCC2024

CNCC2024将于10月24-26日在浙江省东阳市横店镇举办，大会主题为“发展新质生产力，计算引领未来”。大会为期三天，包括18个特邀报告、3个大会论坛、138个专题论坛及34场专题活动和100余个展览。图灵奖获得者、两院院士、国内外顶尖学者、知名企业家在内的超过800位讲者在会上展望前沿趋势，分享创新成果。预计参会者超过万人。

点击“阅读原文”，进入CNCC官网。

http://mp.weixin.qq.com/s?__biz=MjM5MTY5ODE4OQ==&mid=2651582604&idx=5&sn=880a55dc470e8b1e8ed09bdce2f24275

中国计算机学会

中国计算机学会官方订阅号，为CCF会员及计算领域的专业人士服务。

最新文章

早鸟票倒计时3天！CNCC2024大会日程更新版

2024年CCF-联想蓝海科研基金-下一代计算设备和交互创新（第二批）开启申报

CCF技术公益优秀案例探访——阿里云以科技照亮公益之路

CNCC | 艺术、AIGC与新质生产力

CIRAC 2024分论坛预告——自动驾驶中的人机混合智能

CNCC | AI赋能的元宇宙教育及服务

长三角具身智能及智能制造研讨会｜CCF企智会(苏州)活动预告

CNCC | 揭秘大模型训练的底层逻辑：网络与计算的深度融合之战

CNCC大会论坛 | “人工智能+”赋能新质生产力：新、质与力的道与术

明日9时起可打印准考证 | 第35次CSP认证考试

共庆山河锦绣，共享岁月芳华，共聚CCF！

CNCC | 第三届卫星计算论坛：未来机遇与关键挑战

CIRAC 2024分论坛预告——机器人情感计算

CNCC | 大模型时代：青年学者发展的机遇与挑战

CNCC2024特邀报告讲者 | 上海人工智能实验室首席科学家周伯文

CCF CED 2024｜分论坛前瞻之“生产力革新的AI工具”

CIRAC 2024分论坛预告——受限环境下机器人智能导航与控制

CNCC | BT-IT融合技术：数据存储和计算的新机遇？

CNCC | 多媒体内容理解与生成：技术与应用对话

CNCC | 人工智能助力数字金融新浪潮

梅宏：对当前人工智能热潮的几点冷思考 | CCCF精选

CIRAC 2024分论坛预告——智能机器人与SLAM

CNCC | 多模态大模型在NPU上的应用能否开创新的交互范式？

CCF PTA联合认证P科目免考，知多少？

2024年CCF 科技创业大赛（TEC 2024）邀请函

CNCC | 3D视界新纪元：如何解决裸眼3D技术与未来体验升维中的关键问题

李华伟：智能EDA前沿——AI与EDA的协同进化之旅 | CNCC专家谈

2024 CCF CCSP竞赛将于10月23~24日举办，9月19日开启报名

CIRAC 2024分论坛预告——大模型与通用机器人

早鸟票倒计时7天，CNCC2024十问十答助您参会

CNCC | 多模态大模型时代的语音音频技术：机遇与挑战并存

CNCC | 第四届高能效图计算架构和系统软件论坛邀你共议图计算现状及发展趋势

CNCC | 网络时空大模型

关于开展2024年度CCF互联网及网络与数据通信专委博士学位论文激励计划评选的通知

CNCC大会论坛 | “人工智能+”赋能新质生产力：新、质与力的道与术

CNCC参会资助名单公布 | 早鸟票结束倒计时8天

关于CCF GESP第七次认证成绩查询及复议通知

芳华十年：CCF女工委十周年纪念系列活动重磅发布

申报倒计时7天丨CCF-睿芯教学基金

CNCC | 面向大模型的智能芯片与系统

CIRAC 2024分论坛预告——水下智能机器人

开学季，学生会员纳新正当时

申报倒计时公告丨CCF产学合作基金

中国计算机学会和智谱签署战略合作协议

CIRAC 2024分论坛预告——智能机器人与多模态感知

CNCC2024特邀报告 | 王小川：通用人工智能时代的展望与百川实践

CNCC | 第二届机密计算论坛——机密计算未来如何发展？

CNCC | 第十一届智慧医疗健康论坛：医疗大模型和AIGC赋能智慧医疗健康

早鸟优惠仅剩10天，计算机与影视圈的跨界对话：AI与未来影像 | CNCC大会论坛

关于2024CCF会士提名的说明

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉