【直播预告】Xmart•学生论坛丨刘濠赫：LDMs in audio decoding

文摘 2024-11-07 18:04 北京

Xmart青年论坛由上海交通大学跨媒体语言智能实验室（SJTU X-LANCE lab）创办，中国计算机学会语音对话专委会主办，语音之家协办，旨在邀请国内外优秀的青年学者分享其最新科研工作和成果，促进多元且深入的交流与合作。Xmart学生论坛作为其中一个系列，致力于邀请国内外知名高校有成体系工作的研究生，主要通过线上分享的方式，系统地介绍其科研成果和心得，为青年学生打造一个学术探讨，思维碰撞和多学科交叉融合的平台。

Xmart•学生论坛丨刘濠赫：Latent Diffusion Model as a Versatile Coarse-to-Fine Audio Decoder

形式：线上

时间：11月9日(周六) 14:00 ~ 16:00

报告摘要

Latent diffusion models (LDMs) have demonstrated exceptional generative capabilities across various modalities. This talk will explore LDMs as a coarse-to-fine audio decoder, offering a versatile framework for audio tasks. We will begin by covering the fundamentals of diffusion models and their control over forward and backward processes. Next, we will look into specific applications, including the AudioLDM series for text-to-audio generation, models for audio quality enhancement, and neural audio codecs. The talk will highlight common design principles across these models and include interactive demos. We will conclude by discussing the strengths and limitations of LDMs in audio decoding and potential future research directions.

报告嘉宾

刘濠赫

刘濠赫，英国萨里大学视觉、语音与信号处理中心（CVSSP）的高年级博士生。他的研究方向包括音频质量增强、生成、源分离和识别等领域。他在 TPAMI/TASLP/JSTSP/ICML/AAAI/ICASSP/INTERSPEECH 等顶级学术期刊和会议上发表多篇论文。论文总引用量超过1800次，他的GitHub开源项目广受关注，共收获超过8500颗星标。代表作包括AudioLDM、SemantiCodec、NaturalSpeech等。此外，他还曾在Meta、微软和字节跳动等公司担任实习研究员。

参加方式

①

直播将通过语音之家微信视频号进行直播

手机端、PC端可同步观看

👇👇👇

②

腾讯会议参加

会议号：409-237-723

实验室介绍

上海交通大学跨媒体语言智能实验室（SJTU Cross Media Language Intelligence Lab, X-LANCE）成立于2012年，前身是“智能语音实验室”（SpeechLab），经过多年发展，成为了涵盖视听文语言信息处理核心各研究领域的“跨模态语言智能实验室”。目前，跨媒体语言智能实验室的教师组有一位教授、四位副教授和一位科研助理，拥有二十余名博士研究生，近四十名硕士研究生，还包括ACM班、AI班、IEEE班、电院CS等专业、巴黎卓越工程师学院、密西根学院等的三十余名本科生。

实验室获得了包括国家重点研发计划、自然科学基金委优秀青年科学基金在内的诸多国家和企业项目支持。实验室与思必驰科技股份有限公司深度合作，成立了“上海交通大学思必驰智能人机交互联合实验室”。实验室可调动丰富的数据资源以及多达数百块H800、A800、A10等GPU卡的丰富计算资源，是国际上极少数可以进行产业级大尺度数据分析和研究的人工智能实验室之一。

X-LANCE实验室致力于做能够改变世界的国际水平的技术研究，实验室的学术信条：要用技术改变世界，首先必须是一个优秀的工程师；而一个杰出的工程师一定是一位科学家。

永久福利直投简历

简历投递：join@speechhome.com

扫码关注我们

助力AI语音开发者的社区

http://mp.weixin.qq.com/s?__biz=MzI4OTQyNzA0Ng==&mid=2247533358&idx=1&sn=49a9b36922dd63cb6e8579e448131a45

语音之家

助力AI语音开发者的社区

最新文章

上交大与上海人工智能研究所联合推出医学多语言模型，模型数据代码开源

CCF语音对话与听觉专委 “走进高校”系列活动—走进江苏大学

语音/音频处理学术速递[11.12]

诺奖AI成果开源了！ AlphaFold3代码人人可以免费下，Nature亲自撰文推荐

PersonaTalk：无需训练即可创建数字人，视频口型编辑超SOTA

智谱，让AI视频正式迈入“有声时代”

语音/音频处理学术速递[11.11]

AI语音招聘岗位合集

王仁华：“这是我们民族的事，应该自己闯出这条路！” | 先生

重磅！刚刚Sam Altman万字采访：AGI将在2025年实现，通往 AGI 的道路已经清晰可见

语音增强的跨域优化：并行还是级联？

文本图格式大一统！首个大规模文本边基准TEG-DB发布 | NeurIPS 2024

语音/音频处理学术速递[11.8]

【直播预告】Xmart•学生论坛丨刘濠赫：LDMs in audio decoding

港科大、中科大等推出最强扩散Transformer，「黑神话」级3A大作AI实时游戏生成！

语音/音频处理学术速递[11.7]

CNCC2024技术论坛“多模态大模型时代的语音音频技术：带来哪些机遇与挑战？”圆满举行

腾讯混元开源最大 MoE大模型

语音/音频处理学术速递[11.6]

技术沙龙预告丨揭秘新一代大规模声音克隆TTS模型MaskGCT

满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

语音/音频处理学术速递[11.5]

自回归量化连续语音合成，潜在扩散模型；多模态音频理解基准

倒计时3天，ISCSLP2024大会即将开幕！注册参会持续开放中

微软清华改进Transformer：用降噪耳机原理升级注意力，一作在线答疑

语音/音频处理学术速递[11.4]

AI语音招聘岗位合集

大规模、动态「语音增强/分离」新基准！清华发布移动音源仿真平台SonicSim，含950+小时训练数据

Meta发布全新后训练方式CGPO，编程水平直升5%

语音/音频处理学术速递[11.1]

刚刚，ChatGPT变身AI搜索免费用！OpenAI颠覆谷歌，搜索变天了

SiliconCloud上线Fish Audio：一站式开发端到端实时语音应用

o1驾驶无人机后空翻，OpenAI开发者日惊掉下巴！2分钟爆改代码写App

语音/音频处理学术速递[10.31]

MaskGCT：登上GitHub趋势榜榜首的TTS开源大模型

博士招生机会！

智源研究院发布千万级多模态指令数据集Infinity-MM：驱动开源模型迈向SOTA性能

语音/音频处理学术速递[10.30]

语音/音频处理学术速递[10.29]

新扩散模型OmniGen一统图像生成，架构还高度简化、易用

可在嘈杂环境中识别声音，新型液态声学传感器模拟鲸鱼额隆

超越Transformer，全面升级！MIT等华人团队发布通用时序TimeMixer++架构，8项任务全面领先

开放下载丨超自然对话语音合成数据集NCSSD

对话语音合成大模型GPT-Talker: Generative Expressive CSS

谷歌AI播客刚火，Meta就开源了平替，效果一言难尽

语音/音频处理学术速递[10.28]

AI语音招聘岗位合集

7B新王登基！Zamba 2完胜同级模型，推理效率比Llama 3提升20%，内存用量更少

语音/音频处理学术速递[10.25]

直播预告丨RTE2024 第十届实时互联网大会

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉