语音/音频处理学术速递[10.25]

文摘 2024-10-25 18:00 北京

今日论文合集：cs.SD语音11篇，eess.AS音频处理12篇。

本文经arXiv每日学术速递授权转载

微信公众号：arXiv_Daily

cs.SD语音

【1】We Augmented Whisper With kNN and You Won't Believe What Came Next

标题：我们用kNN增强耳语，你不会相信接下来会发生什么
链接：https://arxiv.org/abs/2410.18850

作者：Maya K. Nachesa, Vlad Niculae
备注：6 pages incl. appendix, 2 figures, 6 tables

【2】 Wavetable Synthesis Using CVAE for Timbre Control Based on Semantic Label
标题：基于语义标签的基于CVAE的音色控制波表合成
链接：https://arxiv.org/abs/2410.18628

作者：Tsugumasa Yutani, Yuya Yamamoto, Shuyo Nakatani, Hiroko Terasawa
备注：6 pages, 4 figures, Accepted at APSIPA ASC 2024

【3】 STTATTS: Unified Speech-To-Text And Text-To-Speech Model
标题：STTATTS：统一的语音到文本和文本到语音模型
链接：https://arxiv.org/abs/2410.18607

作者：Hawau Olamide Toyin, Hao Li, Hanan Aldarmaki
备注：11 pages, 4 Figures, EMNLP 2024 Findings

【4】 A contrastive-learning approach for auditory attention detection
标题：听觉注意力检测的对比学习方法
链接：https://arxiv.org/abs/2410.18395

作者：Seyed Ali Alavi Bajestan, Mark Pitt, Donald S. Williamson

【5】 A Unimodal Speaker-Level Membership Inference Detector for Contrastive Pretraining
标题：用于对比预训练的单模式说话者级隶属度推断检测器
链接：https://arxiv.org/abs/2410.18371

作者：Ruoxi Cheng, Yizhong Ding, Shuirong Cao, Shitong Shao, Zhiqiang Wang

【6】 Contextual Biasing to Improve Domain-specific Custom Vocabulary Audio Transcription without Explicit Fine-Tuning of Whisper Model
标题：上下文偏置以改善特定领域的自定义词汇音频转录，而无需对Whisper模型进行显式微调
链接：https://arxiv.org/abs/2410.18363

作者：Vishakha Lall, Yisi Liu

【7】 Unified Microphone Conversion: Many-to-Many Device Mapping via Feature-wise Linear Modulation
标题：统一麦克风转换：通过逐流线性调制实现多对多设备映射
链接：https://arxiv.org/abs/2410.18322

作者：Myeonghoon Ryu, Hongseok Oh, Suji Lee, Han Park
备注：Currently under review for ICASSP 2025

【8】 Robust and Explainable Depression Identification from Speech Using Vowel-Based Ensemble Learning Approaches
标题：使用基于元音的合奏学习方法从语音中识别稳健且可解释的抑郁症
链接：https://arxiv.org/abs/2410.18298

作者：Kexin Feng, Theodora Chaspari
备注：accepted at the IEEE-EMBS International Conference on Biomedical and Health Informatics (BHI 2024)

【9】 Optimizing the role of human evaluation in LLM-based spoken document summarization systems
标题：优化基于LLM的口语文档摘要系统中人工评估的作用
链接：https://arxiv.org/abs/2410.18218

作者：Margaret Kroll, Kelsey Kraus
备注：None

【10】 Melody Construction for Persian lyrics using LSTM recurrent neural networks
标题：使用LSTM循环神经网络构建波斯语歌词的旋律
链接：https://arxiv.org/abs/2410.18203

作者：Farshad Jafari, Farzad Didehvar, Amin Gheibi

【11】 Music102: An $D_{12}$-equivariant transformer for chord progression accompaniment
标题：Music 102：用于和弦进行伴奏的$D_{12}$-等变Transformer
链接：https://arxiv.org/abs/2410.18151

作者：Weiliang Luo
备注：10 pages, 3 figures

eess.AS音频处理

【1】 A Survey on Speech Large Language Models
标题：语音大语言模型研究
链接：https://arxiv.org/abs/2410.18908

作者：Jing Peng, Yucheng Wang, Yu Xi, Xv Li, Kai Yu

【2】 We Augmented Whisper With kNN and You Won't Believe What Came Next
标题：我们用kNN增强耳语，你不会相信接下来会发生什么
链接：https://arxiv.org/abs/2410.18850

作者：Maya K. Nachesa, Vlad Niculae
备注：6 pages incl. appendix, 2 figures, 6 tables

【3】 Wavetable Synthesis Using CVAE for Timbre Control Based on Semantic Label
标题：基于语义标签的基于CVAE的音色控制波表合成
链接：https://arxiv.org/abs/2410.18628

作者：Tsugumasa Yutani, Yuya Yamamoto, Shuyo Nakatani, Hiroko Terasawa
备注：6 pages, 4 figures, Accepted at APSIPA ASC 2024

【4】 STTATTS: Unified Speech-To-Text And Text-To-Speech Model
标题：STTATTS：统一的语音到文本和文本到语音模型
链接：https://arxiv.org/abs/2410.18607

作者：Hawau Olamide Toyin, Hao Li, Hanan Aldarmaki
备注：11 pages, 4 Figures, EMNLP 2024 Findings

【5】 A contrastive-learning approach for auditory attention detection
标题：听觉注意力检测的对比学习方法
链接：https://arxiv.org/abs/2410.18395

作者：Seyed Ali Alavi Bajestan, Mark Pitt, Donald S. Williamson

【6】 A Unimodal Speaker-Level Membership Inference Detector for Contrastive Pretraining
标题：用于对比预训练的单模式说话者级隶属度推断检测器
链接：https://arxiv.org/abs/2410.18371

作者：Ruoxi Cheng, Yizhong Ding, Shuirong Cao, Shitong Shao, Zhiqiang Wang

【7】 Contextual Biasing to Improve Domain-specific Custom Vocabulary Audio Transcription without Explicit Fine-Tuning of Whisper Model
标题：上下文偏置以改善特定领域的自定义词汇音频转录，而无需对Whisper模型进行显式微调
链接：https://arxiv.org/abs/2410.18363

作者：Vishakha Lall, Yisi Liu

【8】 Unified Microphone Conversion: Many-to-Many Device Mapping via Feature-wise Linear Modulation
标题：统一麦克风转换：通过逐流线性调制实现多对多设备映射
链接：https://arxiv.org/abs/2410.18322

作者：Myeonghoon Ryu, Hongseok Oh, Suji Lee, Han Park
备注：Currently under review for ICASSP 2025

【9】 Robust and Explainable Depression Identification from Speech Using Vowel-Based Ensemble Learning Approaches
标题：使用基于元音的合奏学习方法从语音中识别稳健且可解释的抑郁症
链接：https://arxiv.org/abs/2410.18298

作者：Kexin Feng, Theodora Chaspari
备注：accepted at the IEEE-EMBS International Conference on Biomedical and Health Informatics (BHI 2024)

【10】 Optimizing the role of human evaluation in LLM-based spoken document summarization systems
标题：优化基于LLM的口语文档摘要系统中人工评估的作用
链接：https://arxiv.org/abs/2410.18218

作者：Margaret Kroll, Kelsey Kraus
备注：None

【11】 Melody Construction for Persian lyrics using LSTM recurrent neural networks
标题：使用LSTM循环神经网络构建波斯语歌词的旋律
链接：https://arxiv.org/abs/2410.18203

作者：Farshad Jafari, Farzad Didehvar, Amin Gheibi

【12】 Music102: An $D_{12}$-equivariant transformer for chord progression accompaniment
标题：Music 102：用于和弦进行伴奏的$D_{12}$-等变Transformer
链接：https://arxiv.org/abs/2410.18151

作者：Weiliang Luo
备注：10 pages, 3 figures

机器翻译由腾讯交互翻译提供，仅供参考

永久福利直投简历

简历投递：join@speechhome.com

扫码关注我们

助力AI语音开发者的社区

http://mp.weixin.qq.com/s?__biz=MzI4OTQyNzA0Ng==&mid=2247532887&idx=3&sn=bdf5676239e2008c7dbaaab9003b8b46

语音之家

助力AI语音开发者的社区

最新文章

上交大与上海人工智能研究所联合推出医学多语言模型，模型数据代码开源

CCF语音对话与听觉专委 “走进高校”系列活动—走进江苏大学

语音/音频处理学术速递[11.12]

诺奖AI成果开源了！ AlphaFold3代码人人可以免费下，Nature亲自撰文推荐

PersonaTalk：无需训练即可创建数字人，视频口型编辑超SOTA

智谱，让AI视频正式迈入“有声时代”

语音/音频处理学术速递[11.11]

AI语音招聘岗位合集

王仁华：“这是我们民族的事，应该自己闯出这条路！” | 先生

重磅！刚刚Sam Altman万字采访：AGI将在2025年实现，通往 AGI 的道路已经清晰可见

语音增强的跨域优化：并行还是级联？

文本图格式大一统！首个大规模文本边基准TEG-DB发布 | NeurIPS 2024

语音/音频处理学术速递[11.8]

【直播预告】Xmart•学生论坛丨刘濠赫：LDMs in audio decoding

港科大、中科大等推出最强扩散Transformer，「黑神话」级3A大作AI实时游戏生成！

语音/音频处理学术速递[11.7]

CNCC2024技术论坛“多模态大模型时代的语音音频技术：带来哪些机遇与挑战？”圆满举行

腾讯混元开源最大 MoE大模型

语音/音频处理学术速递[11.6]

技术沙龙预告丨揭秘新一代大规模声音克隆TTS模型MaskGCT

满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

语音/音频处理学术速递[11.5]

自回归量化连续语音合成，潜在扩散模型；多模态音频理解基准

倒计时3天，ISCSLP2024大会即将开幕！注册参会持续开放中

微软清华改进Transformer：用降噪耳机原理升级注意力，一作在线答疑

语音/音频处理学术速递[11.4]

AI语音招聘岗位合集

大规模、动态「语音增强/分离」新基准！清华发布移动音源仿真平台SonicSim，含950+小时训练数据

Meta发布全新后训练方式CGPO，编程水平直升5%

语音/音频处理学术速递[11.1]

刚刚，ChatGPT变身AI搜索免费用！OpenAI颠覆谷歌，搜索变天了

SiliconCloud上线Fish Audio：一站式开发端到端实时语音应用

o1驾驶无人机后空翻，OpenAI开发者日惊掉下巴！2分钟爆改代码写App

语音/音频处理学术速递[10.31]

MaskGCT：登上GitHub趋势榜榜首的TTS开源大模型

博士招生机会！

智源研究院发布千万级多模态指令数据集Infinity-MM：驱动开源模型迈向SOTA性能

语音/音频处理学术速递[10.30]

语音/音频处理学术速递[10.29]

新扩散模型OmniGen一统图像生成，架构还高度简化、易用

可在嘈杂环境中识别声音，新型液态声学传感器模拟鲸鱼额隆

超越Transformer，全面升级！MIT等华人团队发布通用时序TimeMixer++架构，8项任务全面领先

开放下载丨超自然对话语音合成数据集NCSSD

对话语音合成大模型GPT-Talker: Generative Expressive CSS

谷歌AI播客刚火，Meta就开源了平替，效果一言难尽

语音/音频处理学术速递[10.28]

AI语音招聘岗位合集

7B新王登基！Zamba 2完胜同级模型，推理效率比Llama 3提升20%，内存用量更少

语音/音频处理学术速递[10.25]

直播预告丨RTE2024 第十届实时互联网大会

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉