CCF语音对话与听觉专委 “走进高校”系列活动—走进江苏大学

文摘 2024-11-12 18:01 北京

活动时间：2024年11月16日 8:30-11:30

主办单位：中国计算机学会

承办单位：CCF语音对话与听觉专业委员会、江苏大学

参会方式：

（线下）江苏大学计算机学院208室

（线上）腾讯会议ID：124-608-496

● 活动介绍：

“CCF走进高校”是CCF组织的系列演讲公益活动，中国计算机学会（CCF）致力于为计算机领域专业人士的职业发展提供服务。本次活动由CCF主办，由 CCF语音对话与听觉专业委员会、江苏大学承办。活动将于2024年11月16日8:30-11:30在线上线下同时举行，欢迎感兴趣的老师同学参加！

江苏大学是2001年8月经教育部批准，由原江苏理工大学、镇江医学院、镇江师范专科学校合并组建的重点综合性大学，是江苏省人民政府和教育部、农业农村部共建高校，以及首批江苏省高水平大学建设高校、全国本科教学工作水平优秀高校、首批全国50所毕业生就业典型经验高校、全国创新创业典型经验高校、首批全国来华留学质量认证高校、全国“三全育人”综合改革试点高校。学校具有百年办学历史，文化底蕴深厚。原江苏理工大学的前身镇江农业机械学院，是为贯彻毛泽东同志关于“农业的根本出路在于机械化”的重要指示，1960年由南京工学院（现东南大学）分设独立建校的，办学历史可追溯到1902年刘坤一、张之洞等创办的三江师范学堂。学校作为国内最早设立农机专业、最早系统开展农机教育的高校，坚持立足江苏、服务行业，始终以推动我国农业机械化、现代化为使命，培养了我国第一批农机本科、硕士和第一位农机博士、博士后，为我国农业装备人才培养、科技创新，为推动农民增收、农业发展和农村稳定作出了积极的贡献，形成了“工中有农，以工强农”的鲜明办学特色和独特的文化情怀。

学校办学水平高，拥有一批高水平学科。工程学、材料科学、临床医学、化学、农业科学、药理学与毒理学、生物学与生物化学、环境生态学、分子生物学与遗传学、计算机科学、植物学与动物科学、一般社会科学、物理学、免疫学、微生物学15个学科进入ESI排名全球前1%，农业科学、工程学、化学、材料科学4个学科进入前1‰。拥有2个国家重点学科，1个国家重点（培育）学科，11个江苏高校优势学科。拥有16个一级学科博士点，2个博士专业学位类别，46个一级学科硕士点，26个硕士专业学位类别。设有14个博士后科研流动站。

● 组织主席：

● 活动日程：

● 主持人：

毛启容教授

个人介绍：江苏大学计算机科学与通信工程学院二级教授、博士生导师、院长。国家重点项目第一完成人，连续3年入选“全球前2%顶尖科学家”榜单，江苏省“333人才工程”第二层次领军人才，江苏省“青蓝工程”中青年学术带头人，江苏省“六大人才高峰”高层次人才，镇江市有突出贡献的中青年专家，镇江市师德先进个人，国家“双万计划”一流专业负责人，江苏省大数据泛在感知与智能农业应用工程研究中心主任，江苏省一流课程负责人。

主要研究方向：多媒体与智能信息处理，智慧农业，包括复杂环境下的图像、声音以及跨媒体融合处理。在情感计算、多媒体信息处理、人机交互方面的研究成果在计算机学报、CVPR、ACMMM、TIP、TMM等国内外知名学术会议/期刊上发表论文80余篇。基于视觉语音行为监控与展现的研究成果在智慧安防、重症病人监护、医疗设备智能交互、驾驶员行为分析等领域进行推广应用，获得了很好的经济效益，获省部级及行业科技进步奖4项。

● 特邀嘉宾：

俞凯教授

CCF语音对话与听觉专业委员会主任

嘉宾介绍：俞凯，教授，上海交通大学计算机科学与工程系特聘教授、博导，计算机系智能人机交互研究所所长，上海交通大学人工智能研究院语音及语言处理中心主任，思必驰公司联合创始人及首席科学家。国家高层次人才项目获得者，科技部中青年科技创新领军人才，国家自然科学基金委优青，上海市“东方学者”特聘教授。清华大学自动化系本科（1999）、硕士（2002），英国剑桥大学工程系博士（2006）。研究兴趣主要集中在人工智能领域，尤其是以对话为核心的智能语音及自然语言处理，涵盖了语音信号处理、语音识别及合成、音频分析、语言理解、对话管理、语言基础模型、多模态语音及语言处理等方面。现任中国计算机学会（CCF）杰出会员，CCF语音对话及听觉专委会主任，中文信息学会（CIPSC）第九届理事会理事，语音信息处理专委会副主任。

● 主题报告：

凌震华教授

嘉宾介绍：凌震华，中国科学技术大学教授、博士生导师，信息科学技术学院副院长，语音及语言信息处理国家工程研究中心副主任，入选教育部CJ学者校企联聘学者。主要从事语音信号处理、自然语言处理等方向的研究。主持多项国家自然科学基金、国家重点研发计划等科研项目，已发表论文200 余篇，累计被引1万余次，获国家科技进步奖、IEEE信号处理学会最佳青年作者论文奖等奖项，多次在国际语音语言技术评测中获得第一名。任IEEE/ACM TASLP等期刊编委、IEEE信号处理学会语音与语言处理技术委员会委员、中国计算机学会语音听觉与对话专委会秘书长、全国人机语音通讯学术会议常设机构委员会委员。

报告题目：基于多模态音色描述的话者转换

报告内容简介：话者转换（Voice Conversion）又称语音转换、声音转换，是一种语音生成任务，指的是在保持文本内容不变的前提下改变源话者语音，使其听感接近目标话者。该技术在语音通信中的身份匿名与伪装、有声读物制作、娱乐等领域有着重要的应用价值。传统话者转换任务使用目标话者的少量参考语音描述目标音色。另一方面，话者音色也可以通过人脸图像、文本提示等其他模态进行描述。这些模态驱动下的话者转换可以摆脱传统话者转换任务对于目标话者语音数据的依赖，实现更加灵活的音色创造。本报告将首先介绍我们在参考语音驱动的传统话者转换任务方面开展的一些研究工作，包括引入循环一致性训练的任意源话者到特定目标话者转换、融合多尺度话者表征的单样本话者转换等。接着将介绍我们在使用其他模态信息驱动话者转换方面的最新研究进展，包括人脸图像控制的零样本话者转换，以及文本提示驱动的音色属性编辑。

李明副教授

嘉宾介绍：李明，昆山杜克大学电子与计算机工程长聘副教授，大数据研究中心研究员，武汉大学计算机学院兼职教授，博导。第十五批江苏省六大高峰B类高层级人才。2013年毕业于美国南加州大学电子工程系，获工学博士学位。曾任美国卡内基梅隆大学访问教授和美国杜克大学客座研究员，IEEE语音及语言技术委员会委员，多个国际期刊副主编，ASRU、Odyssey等重要学术会议技术程序委员会主席，带领团队十余次获得国际评测冠军，两次获得国际会议最佳论文奖。发表论文两百余篇，谷歌学术引用9500。2016年获IBM Faculty Award，2018年获ISCA最佳期刊论文奖，2020年获教育部高校科研优秀青年成果奖。

报告题目：面向复杂场景的高鲁棒说话人日志

报告内容简介：

将围绕特定人语音活动检测系列方法分别从离线、在线、多模态、多通道等场景介绍我们近期在高鲁棒说话人日志方面的工作。

张超助理教授

嘉宾介绍：张超，清华电子系助理教授、博导，伦敦大学学院荣誉副教授，研究方向为多模态语音语言处理和计算认知神经科学。张超于2009和2012年在清华大学计算机系获得本科和硕士学位，2017年在剑桥大学工程系获博士学位。博士毕业后曾任剑桥大学副研究员、京东AI顾问和语音组联合负责人、Google公司高级研究科学家等职务。还担任剑桥大学客座研究员、中国中文信息学会语音信息专委会副秘书长、全国人机通讯学术会议常设机构秘书长。入选国家高层次人才计划青年项目。

报告题目：SALMONN系列音视频大语言模型最新研发进展

报告内容简介：在本报告中，我们将介绍SALMONN系列模型在语音和音视频理解领域的最新研发进展。首先，我们通过扩展SALMONN通用听觉大语言模型，使其能够自动评估语音质量。除了能够精确预测合成语音的主观意见得分（MOS）和语音相似度（SIM），还能够进行A/B测试，并基于自然语言生成可解释的语音质量描述和评估文本。与最先进的自监督学习模型相比，调优后的SALMONN在NISQA、BVCC、SOMOS、VoxSim等常用语音质量评估数据集上仍然表现出色。

其次，video-SALMONN 2模型在认知导向的音视频大语言模型的基础上，通过结合低秩适配（LoRA）和直接偏好优化（DPO）等前沿技术，实现了最先进的音视频字幕生成效果。我们提出了一种多轮直接偏好优化（MrDPO）方法，极大地提高了字幕生成的准确性，降低了错误率与重复率，同时仍能保持在视频问答等任务中的良好性能表现。该模型仅用70亿参数就可以在字幕生成的准确性方面超过GPT-4o和Gemini-1.5-Pro等业界领先商用模型。

高利剑博士

嘉宾介绍：高利剑，江苏大学讲师。2024在江苏大学计算机学院取得博士学位，研究方向为声音事件检测。在多媒体及声音信号处理领域发表论文10余篇，其中以第一作者身份发表CCF-A类会议及中科院一区期刊论文共4篇。

报告题目：声音事件检测关键技术研究进展

报告内容简介：声音事件检测是声音信号处理领域的一个热门研究方向，其要求智能模型能够从混合声音中识别并定位目标声音事件。报告围绕声音事件检测任务，分析强监督、弱监督到半监督场景下面临的一系列问题与挑战，并分别从特征学习、决策学习、鲁棒训练以及预训练模型知识迁移四个方面展开讨论。具体包括强监督下声音事件全局特征的解耦合，弱监督场景下声音事件定制化决策学习，半监督场景下联合正则化技术以及预训练模型的知识迁移相关方法研究。

通知：

CCF 语音对话与听觉专委会“走进高校”活动承办单位征集通知

为了更好地推动语音、对话与听觉信息处理领域的学术交流，促进本领域学者间的了解与合作，分享本领域的前沿进展与学术资源，中国计算机学会语音对话与听觉专委会（CCF-TCSDAP）拟开展“走进高校”系列报告会活动，现面向全国范围的高校、科研院所征集活动承办单位。

具体活动内容与申请要求、申请表参见通知（https://mp.weixin.qq.com/s/7QEN1FGdMcmKCk293-Dt0Q）中附件一“CCF语音对话与听觉专委会走进高校系列报告会活动细则”与附件二“CCF语音对话与听觉专委会走进高校系列报告会活动申请表”。意向承办方请填写申请表后邮件发送至专委会秘书长凌震华（zhling@ustc.edu.cn），抄送给秘书组成员吴梦玥（mengyuewu@sjtu.edu.cn）和刘瑞（liurui_imu@163.com）。

永久福利直投简历

简历投递：join@speechhome.com

扫码关注我们

助力AI语音开发者的社区

http://mp.weixin.qq.com/s?__biz=MzI4OTQyNzA0Ng==&mid=2247533518&idx=2&sn=5b20d7e2748418499ed92423d9a75aa0

语音之家

助力AI语音开发者的社区

最新文章

上交大与上海人工智能研究所联合推出医学多语言模型，模型数据代码开源

CCF语音对话与听觉专委 “走进高校”系列活动—走进江苏大学

语音/音频处理学术速递[11.12]

诺奖AI成果开源了！ AlphaFold3代码人人可以免费下，Nature亲自撰文推荐

PersonaTalk：无需训练即可创建数字人，视频口型编辑超SOTA

智谱，让AI视频正式迈入“有声时代”

语音/音频处理学术速递[11.11]

AI语音招聘岗位合集

王仁华：“这是我们民族的事，应该自己闯出这条路！” | 先生

重磅！刚刚Sam Altman万字采访：AGI将在2025年实现，通往 AGI 的道路已经清晰可见

语音增强的跨域优化：并行还是级联？

文本图格式大一统！首个大规模文本边基准TEG-DB发布 | NeurIPS 2024

语音/音频处理学术速递[11.8]

【直播预告】Xmart•学生论坛丨刘濠赫：LDMs in audio decoding

港科大、中科大等推出最强扩散Transformer，「黑神话」级3A大作AI实时游戏生成！

语音/音频处理学术速递[11.7]

CNCC2024技术论坛“多模态大模型时代的语音音频技术：带来哪些机遇与挑战？”圆满举行

腾讯混元开源最大 MoE大模型

语音/音频处理学术速递[11.6]

技术沙龙预告丨揭秘新一代大规模声音克隆TTS模型MaskGCT

满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

语音/音频处理学术速递[11.5]

自回归量化连续语音合成，潜在扩散模型；多模态音频理解基准

倒计时3天，ISCSLP2024大会即将开幕！注册参会持续开放中

微软清华改进Transformer：用降噪耳机原理升级注意力，一作在线答疑

语音/音频处理学术速递[11.4]

AI语音招聘岗位合集

大规模、动态「语音增强/分离」新基准！清华发布移动音源仿真平台SonicSim，含950+小时训练数据

Meta发布全新后训练方式CGPO，编程水平直升5%

语音/音频处理学术速递[11.1]

刚刚，ChatGPT变身AI搜索免费用！OpenAI颠覆谷歌，搜索变天了

SiliconCloud上线Fish Audio：一站式开发端到端实时语音应用

o1驾驶无人机后空翻，OpenAI开发者日惊掉下巴！2分钟爆改代码写App

语音/音频处理学术速递[10.31]

MaskGCT：登上GitHub趋势榜榜首的TTS开源大模型

博士招生机会！

智源研究院发布千万级多模态指令数据集Infinity-MM：驱动开源模型迈向SOTA性能

语音/音频处理学术速递[10.30]

语音/音频处理学术速递[10.29]

新扩散模型OmniGen一统图像生成，架构还高度简化、易用

可在嘈杂环境中识别声音，新型液态声学传感器模拟鲸鱼额隆

超越Transformer，全面升级！MIT等华人团队发布通用时序TimeMixer++架构，8项任务全面领先

开放下载丨超自然对话语音合成数据集NCSSD

对话语音合成大模型GPT-Talker: Generative Expressive CSS

谷歌AI播客刚火，Meta就开源了平替，效果一言难尽

语音/音频处理学术速递[10.28]

AI语音招聘岗位合集

7B新王登基！Zamba 2完胜同级模型，推理效率比Llama 3提升20%，内存用量更少

语音/音频处理学术速递[10.25]

直播预告丨RTE2024 第十届实时互联网大会

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉