近期,【多模态生成】领域竞争激烈,成果斐然。Meta 研发的 Transfusion 训练方法令人瞩目,单个模型就能同时产出文本与图像,实现了突破性的进展。此前,华为与清华提出的 PMG 技术,可定制化生成内容,精准满足用户偏好。这些成果彰显了多模态生成领域的热门程度。从学术方面来看,在今年 CVPR 等顶级会议收录的论文中,【多模态生成】已成为热门研究主题之一。众多科研力量汇聚于此,不断推动技术创新。在就业方面,多模态生成领域人才需求旺盛,许多公司设立相关岗位,就业机会增多,为从业者提供了良好的发展前景。
所以【多模态生成】依然是我们很不错的选择,想要尽快在顶会上有所建树、为自己增添砝码的同学可以多加考虑哦。这里我为大家整理了 19 篇关于【多模态生成】今年最新的论文,以便大家快速了解该领域目前的最新进展,而且代码大多都包含在内呢。
需要的同学扫码添加我
回复“多模态”即可全部领取
一、CalliffusionV2: Personalized Natural Calligraphy Generation with Flexible Multi-modal Control
这篇文章介绍了一个名为CallifusionV2的系统,旨在生成具有个性化和灵活多模态控制的自然中国书法。该系统与以往依赖单一图像或文本输入的方法不同,它结合了图像和自然语言文本输入,以细粒度控制生成过程。CallifusionV2通过少量样本学习快速学习新风格,并且能够在没有预先训练的情况下生成非中文字符。
1.方法
研究方法的核心是利用去噪扩散概率模型(DDPMs)和U-Net模型作为骨干网络。该系统包括两个模式:CallifusionV2-base和CallifusionV2-pro**。在CallifusionV2-pro中,用户需要输入文本描述和作为参考影响生成过程的图像;而在CallifusionV2-base中,系统仅基于文本输入生成字符。系统通过训练一个具有两个不同输入集的模型来优化这两种模式,确保无论输入图像是否存在,都能生成一致的输出。
2.创新点
2.1多模态双模式系统
该系统能够适应不同用户的熟悉程度,无论是初学者还是专家,都能轻松生成中国书法。
2.2细粒度控制
用户可以精确控制每一笔的定位,这对于中国书法艺术非常重要。
2.3少量样本微调
系统能够通过极少的样本快速适应新的风格,包括一些数字字体。
2.4生成非中文字符
系统能够生成非中文字符,如日文和希腊字母等,展示了模型的泛化能力。
文章还详细描述了系统的训练过程,包括如何使用字符查找嵌入表、如何通过视觉变换器和中文BERT编码器生成交叉注意力嵌入,以及如何通过U-Net生成最终的书法作品。此外,文章还介绍了如何通过微调来适应新风格,并且只需要少量的新样本即可实现。
在实验部分,文章展示了系统在不同情况下的生成能力,包括对真实中国书法、个人手写字符和数字字体的输入。此外,还展示了系统在微调新风格和细粒度修改方面的能力。通过客观和主观评估,文章证明了系统生成的书法作品在质量和风格一致性方面的优越性。客观评估包括LPIPS、L1损失、RMSE和SSIM等指标,而主观评估则通过人类参与者的调查来完成。
总的来说,这篇文章提出了一个强大的多模态系统,能够生成高质量的中国书法作品,并且具有很高的灵活性和适应性。通过结合图像和文本输入,系统能够捕捉和再现中国书法的细微差别,为书法艺术的数字化创作提供了新的可能性。
论文链接:https://arxiv.org/pdf/2410.03787
二、GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs
这篇文章介绍了一个名为GenSim2的框架,旨在通过利用多模态和推理能力的大型语言模型(LLMs)来扩展机器人模拟数据的生成。该框架的核心目标是为复杂和现实的模拟任务自动创建任务并生成示范数据,特别是涉及铰接对象的长期任务。
1.创新点
1.1多模态任务生成
GenSim2利用多模态和推理LLMs生成复杂任务,这些任务不仅包含语义知识,还要求具有扩展的6自由度(6-DOF)运动和接触能力。
1.2自适应规划和RL求解器
为了为这些任务自动生成示范数据,文章提出了规划和RL求解器,这些求解器能够在对象类别内泛化,从而减少所需的人力工作。
1.3多任务语言条件策略架构
为了利用生成的数据,文章提出了一种有效的多任务语言条件策略架构,称为**proprioceptive point-cloud transformer (PPT)**。这种架构从生成的示范中学习,并展现出强大的从模拟到现实(sim-to-real)零样本迁移能力。
2.研究方法方面
文章提出了一个包含三个主要阶段的流程:任务生成、示范生成和策略训练与迁移。在任务生成阶段,通过LLM生成大规模的机器人任务并收集大量数据。在示范生成阶段,使用提出的规划器和RL求解器来生成任务的示范。最后,在策略训练与迁移阶段,提出了PPT架构,该架构能够有效地从模拟中生成的示范中学习,并在真实世界中实现零样本迁移。
文章还探讨了跨主题迁移的能力,即使用一个主题的微调模型来预测另一个主题的数据。此外,文章还验证了GenSim2生成的数据可以用于零样本迁移或与现实世界收集的数据共同训练,从而提高策略性能。
在实验部分,文章展示了GenSim2在生成任务和数据方面的有效性,并证明了使用GenSim2管道与设计的策略架构相结合可以实现20%的性能提升。这些实验结果证明了GenSim2在减少数据收集工作量和解决现实世界问题方面的潜力。
总的来说,这篇文章通过结合多模态LLMs和有效的策略架构,提出了一种新的方法来生成和利用大规模的模拟数据,以提高机器人策略的性能,并减少现实世界数据收集的需求。
论文链接:https://arxiv.org/pdf/2410.03645
需要的同学扫码添加我
回复“多模态”即可全部领取
三、MM-LDM: Multi-Modal Latent Diffusion Model for Sounding Video Generation
这篇文章介绍了一个名为MM-LDM的多模态潜在扩散模型,用于生成具有同步音频和视频的“发声视频”(Sounding Video Generation, SVG)。该模型旨在解决高维信号空间、不同数据格式和内容信息模式差异所带来的挑战。
1.研究方法
1.1数据表示的统一
通过将音频和视频数据转换为单一或一对图像,实现了两种模态数据的表示统一。
1.2层次化的多模态自编码器
构建了一个层次化的多模态自编码器,该编码器为每种模态创建了一个低层次的感知潜在空间和一个共享的高层次语义特征空间。前者在感知上等同于原始信号空间,但大大减少了信号维度。后者用于连接不同模态之间的信息差距,并提供更深入的跨模态指导。
1.3条件生成
通过训练单一的MM-LDM来同时学习三个分布,分别对应SVG、音频到视频和视频到音频的生成任务。这通过在输入潜在空间中添加条件信息来实现。
2.创新点
2.1多模态潜在扩散模型
这是首个为SVG任务设计的潜在扩散模型,该模型通过在潜在空间中建模SVG,显著降低了计算负担并提高了生成效率。
2.2共享的高层次语义特征空间
通过从低层次的感知潜在空间派生出共享的语义空间,为解码过程中的跨模态指导提供了一种新方法。
2.3跨模态损失的引入
包括音频-视频对抗损失、音频-视频对比损失和分类损失,这些损失函数用于优化训练过程中的语义特征空间,提高跨模态一致性。
文章通过在Landscape和AIST++数据集上的实验,验证了MM-LDM在所有评估指标上的综合性能提升,并在训练和采样速度上实现了更快的速度。此外,MM-LDM在开放域发声视频生成、长发声视频生成、音频延续、视频延续和条件单模态生成任务上展现了出色的适应性和泛化能力。
总的来说,这篇文章通过提出一种新的多模态潜在扩散模型,有效地解决了发声视频生成中的挑战,并在多个任务上达到了新的最先进性能。通过创新的模型架构和训练策略,实现了对音频和视频数据的有效建模,为未来多模态生成任务提供了新的可能性。
论文链接:https://arxiv.org/pdf/2410.01594
需要的同学扫码添加我
回复“多模态”即可全部领取