以下是12篇论文的介绍及分享:
01
SLAM-AAC: Enhancing Audio Captioning with Paraphrasing Augmentation and CLAP-Refine through LLMs
作者:陈文熙,马子阳,李希泉,徐薛楠,梁宇哲,郑之胜,俞凯,陈谐
简介:自动音频描述(AAC)的目标是为输入的音频信号生成自然的文本描述。近年来,音频预训练模型和大语言模型(LLMs)的发展显著提升了音频理解和文本推理能力,为AAC的改进带来了可能性。在本文中,我们提出了SLAM-AAC,通过引入重述增强和CLAP-Refine策略进一步提升AAC性能。我们使用音频自监督模型EAT提取细粒度音频表征,并通过轻量级的线性层将其与文本嵌入对齐。生成音频描述的LLM通过LoRA适配器实现高效微调。借鉴机器翻译中的回译方法,我们在预训练阶段实施了重述增强策略,以扩展Clotho数据集。这一策略缓解了音频-文本配对数据稀缺的问题,为少量音频片段生成多样化的文本描述。在推理阶段,我们引入了一种即插即用的CLAP-Refine方法,用于充分利用多次解码的输出结果,类似于语音识别中的n-best重排序策略。具体而言,我们使用CLAP模型计算音频与文本的相似度,从多个束搜索生成的文本描述中选择与输入音频最匹配的结果。实验结果表明,SLAM-AAC在Clotho V2和AudioCaps数据集上实现了最优性能,超越了以往的主流AAC模型。
项目仓库:https://github.com/X-LANCE/SLAM-LLM/tree/main/examples/slam_aac
02
Smooth-Foley: Creating Continuous Sound for Video-to-Audio Generation Under Semantic Guidance
作者:张耀匀,徐薛楠,吴梦玥
简介:视频到音频(V2A)生成任务因其在拟音制作中的实用性而受到多媒体领域的关注。生成模型通过语义和时间条件指示声音事件及其发生时间。然而,最近有关合成沉浸式和同步音频的研究,面临着视觉中存在动态物体的视频的挑战。时间条件不够精确,同时低分辨率的语义条件加剧了这一问题。为了解决这些挑战,我们提出了Smooth-Foley,一种视频到音频生成模型,通过在生成过程提供文本标签的语义引导,以增强音频的语义和时间对齐。两个适配器被训练以利用预训练的文本到音频生成模型。其中,帧适配器集成了高分辨率的逐帧视频特征,而时间适配器则通过视觉帧与文本标签的相似性集成了时间条件。通过引入文本标签的语义指导,实现了音频与视频的精准对齐。我们进行了广泛的定量和定性实验,结果表明,Smooth-Foley在连续声音场景和一般场景中均优于现有模型。在语义指导的帮助下,Smooth-Foley生成的音频具有更高的质量,并更好地遵循物理规律。
03
VALL-T: Decoder-Only Generative Transducer for Robust and Decoding-Controllable Text-to-Speech
作者:杜晨鹏,郭奕玮,王翰坤,杨亦凡,牛志康,王帅,张辉,陈谐,俞凯
简介:最近decoder-only Transformer架构的TTS模型,如SPEAR-TTS和VALL-E,取得令人印象深刻的自然度,并展示了在给定语音提示的情况下零样本适应的能力。然而,这种decoder-only的TTS模型缺乏单调对齐约束,有时会导致错误发音、跳词和难以停止等幻觉问题。为了解决这一问题,我们提出了VALL-T,这是一个生成式Transducer模型,它为输入音素序列引入了移位的相对位置编码,明确地限制了单调的生成过程,同时保持了decoder-only Transformer的架构。因此,VALL-T保留了基于提示的零样本适应能力,并且对幻觉表现出更好的鲁棒性,词错误率相对降低了28.3%。此外,在解码过程中,VALL-T中对齐的可控性有助于使用未转录的语音提示,即使在未见语言中也是如此。它还可以通过使用对齐的上下文窗口来稳定合成长语音。
论文链接:https://arxiv.org/abs/2401.14321
04
Streaming Keyword Spotting Boosted by Cross-layer Discrimination Consistency
论文作者:奚彧,李浩宇,顾笑与,李豪,蒋一迪,俞凯
论文简介:CTC作为一种非自回归训练准则,广泛应用于语音唤醒系统中。然而,现有的基于CTC的语音唤醒解码策略要么基于 ASR解码,但是由于ASR 解码的搜索空间很广泛且没有针对关键词做专门的优化,因此性能次优;要么依赖于KWS专用的基于 WFST 的解码图进行解码,但是这些解码图实现和维护起来较为复杂。在本研究中,我们提出了一种通过跨层判别一致性(CDC)增强的流式解码算法,为基于CTC的语音唤醒系统量身定制。具体而言,我们引入了一种简化而高效的解码算法,能够在任意位置检测到唤醒词的起始点。此外,我们利用跨层的判别一致性信息,更好地区分正样本和较难的误报样本。我们在干净和噪声的Hey Snips数据集上的实验表明,所提出的流式解码策略优于基于ASR解码和基于解码图的基线。CDC增强的解码能进一步提升性能。我们的最终系统,相较于基于WFST 的的KWS基线,在误报率仅为每小时0.05的严苛测试条件下,召回率平均提升了6.8%,漏检率相对降低了46.3%。
论文链接:https://arxiv.org/abs/2412.12635
05
Enhancing Low-Resource ASR through Versatile TTS: Bridging the Data Gap
作者:杨冠柔,俞帆,马子阳,杜志浩,高志付,张仕良,陈谐
简介:尽管ASR系统在大规模数据集上表现良好,但在有重要现实意义的低资源场景中性能不足(包括方言、口音、小语种、长尾热词等)。随着具有高自然度、强表现力以及多样化说话人特征的通用强大的TTS模型的出现,利用TTS进行ASR数据增强成为提升ASR系统的一种成本低且实用性强的方法。在种类丰富的低资源数据集上的实验表现出一致且显著的性能提升,证明了方法的有效性和广泛的应用前景。此外,深入探究了合成语音中有助于ASR性能提升的关键特性,分析了文本多样性、说话人多样性以及合成数据量等因素。
论文链接:https://arxiv.org/abs/2410.16726
06
One-Shot Talking Face Generation with Expression Editing
作者:黄甘雨,申丽萍
简介:近年来,基于深度学习的说话人视频生成技术取得了显著进展,广泛应用于虚拟助手、动画电影等领域。然而,现有算法在面部表情控制和避免不自然、僵硬动作方面仍面临挑战,这限制了生成效果的真实感与实用性。本文提出了一种新颖方法,旨在提升面部表情的可控性与整体动作的流畅性。我们通过情感标签引导音频生成及相应的面部关键点,并结合ControlNet技术实现效果控制。该方法确保生成的面部关键点既能准确反映目标情感状态,又能增强面部动作的自然流畅性。实验结果表明,本方法能够实现对情感的精确控制,并生成高质量的说话人视频。
07
NTC-KWS: Noise-aware CTC for Robust Keyword Spotting
作者:奚彧,李浩宇,李豪,郭嘉祺,李旭,丁文,俞凯
简介:近年来,设计小型化且高效的基于CTC的关键词识别系统引起了越来越多的关注。这些系统通常部署在低资源计算平台上,由于模型的尺寸和计算能力的限制,模型存在性能瓶颈。在复杂的声学场景下, 模型对噪声存在过拟合,使得关键词与背景噪声之间产生混淆,从而导致较高的误报率。为了解决这些问题,我们在 CTC-KWS 的框架下,提出了一种噪声感知的关键词识别系统(NTC-KWS),旨在提高模型在噪声环境中的鲁棒性,尤其是在极低信噪比条件下。我们的方法基于加权有限状态机转换器(WFST),在原始的CTC训练和解码中都引入两类额外的通配符弧对噪声进行建模:自环弧用于处理噪声导致的插入错误,旁路弧则用于应对噪声过大造成的掩蔽和干扰。对安静和噪声版本的Hey Snips数据集进行的实验表明,NTC-KWS在各种声学条件下优于当前最先进的端到端系统和CTC-KWS基线,尤其在低SNR场景下表现突出。
论文链接:https://arxiv.org/abs/2412.12614
08
PicoAudio: Enabling Precise Temporal Controllability in Text-to-Audio Generation
作者:谢泽宇,徐薛楠,武执政,吴梦玥
简介:最近,音频生成任务吸引了大量的研究兴趣。尽管在生成与文本描述粗略对齐的高保真音频方面取得了快速进展,但精确的时间控制仍然是一个挑战,而这是将音频生成与实际应用结合的关键。
在本研究中,我们提出了一种时间控制的音频生成框架——PicoAudio。该框架利用数据抓取、分割和过滤来模拟精细的时间对齐音频文本数据。此外,PicoAudio通过量身定制的模型设计集成时间信息来指导音频生成。得益于大语言模型的高效文本处理能力,PicoAudio可以接受自然语言输入,并生成与输入中时间描述高度对齐的音频。
主观和客观评估均表明,PicoAudio在时间戳和事件发生频率的可控性方面远远优于当前的最新生成模型。
项目网站:https://zeyuxie29.github.io/PicoAudio.github.io
09
DRCap: Decoding CLAP Latents with Retrieval-Augmented Generation for Zero-shot Audio Captioning
作者:李希泉,陈文熙,马子阳,徐薛楠,梁宇哲,郑之胜,孔秋强,陈谐
简介:尽管自动音频描述(AAC)技术取得了显著进展,传统的全监督AAC模型仍面临两个关键挑战:其一是训练所需的音频-文本配对数据成本高昂,其二是在跨领域迁移时性能下降。为了解决这些局限性,我们提出了DRCap,一种数据高效且灵活的零样本音频描述系统,仅需文本数据进行训练,并能在无需额外微调的情况下快速适应新领域。DRCap以对比语言-音频预训练(CLAP)模型和大型语言模型(LLM)作为其核心。在训练阶段,模型使用CLAP中的固定文本编码器预测真实的描述文本;在推理阶段,将文本编码器替换为音频编码器,以零样本的方式为音频片段生成描述文本。为了缓解CLAP模型的模态差距,我们分别在编码器端采用投影策略,在解码器端采用检索增强生成(Retrieval-Augmented Generation, RAG)策略。 具体而言,音频嵌入首先被投影到文本嵌入空间中,以吸收CLAP联合多模态空间中的丰富语义信息。同时,从数据存储库中检索的相似描述文本被作为提示输入LLM,结合外部知识以充分利用其强大的生成能力。在结合投影后的CLAP嵌入和检索到的相似描述文本的条件下,模型能够生成更准确且语义更丰富的文本描述。通过针对目标领域定制文本嵌入空间和描述数据存储库,DRCap无需训练即可获得强大的跨领域适应能力。 实验结果表明,DRCap在域内场景中优于所有其他零样本模型,并在跨领域场景中实现了最新的最优性能。
论文:https://arxiv.org/abs/2410.09472
项目仓库:https://github.com/X-LANCE/SLAM-LLM/tree/main/examples/drcap_zeroshot_aac
10
Neural Directed Speech Enhancement with Dual Microphone Array in High Noise Scenario
作者:文雯、周强、奚彧、李浩宇、龚子琪、俞凯
简介:在多说话人场景中,利用空间特征对于增强目标语音至关重要。然而,在麦克风阵列有限的情况下,开发一个紧凑的多通道语音增强系统仍然具有挑战性,尤其是在极低信噪比(SNR)条件下。为了解决这个问题,我们提出了一种三导向空间选择方法,这是一个灵活的框架,使用三个导向向量来指导增强并确定增强范围。具体来说,我们引入了一个因果导向的U型网络(CDUNet)模型,该模型以原始多通道语音和期望的增强宽度作为输入。这使得可以根据目标方向动态调整导向向量,并根据目标和干扰信号之间的角分离对增强区域进行微调。我们的模型仅使用双麦克风阵列,在语音质量和下游任务性能方面都表现出色。它有实时操作,参数最少等特点,非常适合低延迟、设备上的流媒体应用。
论文链接:https://arxiv.org/abs/2412.18141
11
AudioTime: A Temporally-aligned Audio-Text Benchmark Dataset
作者:谢泽宇,徐薛楠,武执政,吴梦玥
简介:近年来,音频生成技术的进步使得可以通过自由形式的文本描述生成高保真音频片段。然而,时间关系这一音频内容的关键特性在主流模型中目前表现不足,导致时间控制的精确性较差。具体而言,用户无法使用自由形式的文本准确控制声音事件的时间戳。
我们认识到,这一问题的一个重要原因是缺乏高质量、时间对齐的音频文本数据集,而这种数据集对于训练具备时间控制能力的模型至关重要。注释的时间对齐程度越高,模型就越能准确理解音频输出与时间文本提示之间的关系。
因此,我们提出了一个高度对齐的音频文本数据集,称为 AudioTime。该数据集提供了丰富的时间信息文本注释,例如时间戳、持续时间、频率和顺序,涵盖了几乎所有时间控制的方面。此外,我们还提供了一个全面的测试集和评估指标,用于评估各种模型的时间控制性能。
项目网站:https://zeyuxie29.github.io/AudioTime
12
Fast and High-Quality Auto-Regressive Speech Synthesis via Speculative Decoding
作者:李波含、王翰坤、张思拓、郭奕玮、俞凯
简介:自动回归架构(如GPT)广泛应用于语音合成(TTS)系统。然而,由于语音序列编码较长,它会导致逐一预测下一编码的推理时间显著增加。在本研究中,我们介绍了VADUSA,这是通过投机采样方法加速自回归TTS的首批方法之一。我们的结果表明,VADUSA不仅显著提高了推理速度,还通过引入草稿预测头来自回归地预测未来的语音内容,从而增强了性能。此外,在采样过程中引入容错机制进一步加速了推理速度,而不影响语音质量。我们的方法在大规模数据集和各种类型的语音编码上均展现了强大的泛化能力。
论文链接:https://arxiv.org/abs/2410.21951v1