多模态生成发文量飙升，最新成果统一两大技术，含金量爆表！

2024-11-19 10:53 安徽

近期，【多模态生成】领域竞争激烈，成果斐然。Meta 研发的 Transfusion 训练方法令人瞩目，单个模型就能同时产出文本与图像，实现了突破性的进展。此前，华为与清华提出的 PMG 技术，可定制化生成内容，精准满足用户偏好。这些成果彰显了多模态生成领域的热门程度。从学术方面来看，在今年 CVPR 等顶级会议收录的论文中，【多模态生成】已成为热门研究主题之一。众多科研力量汇聚于此，不断推动技术创新。在就业方面，多模态生成领域人才需求旺盛，许多公司设立相关岗位，就业机会增多，为从业者提供了良好的发展前景。

所以【多模态生成】依然是我们很不错的选择，想要尽快在顶会上有所建树、为自己增添砝码的同学可以多加考虑哦。这里我为大家整理了 19 篇关于【多模态生成】今年最新的论文，以便大家快速了解该领域目前的最新进展，而且代码大多都包含在内呢。

需要的同学扫码添加我

回复“多模态”即可全部领取

一、CalliffusionV2: Personalized Natural Calligraphy Generation with Flexible Multi-modal Control

这篇文章介绍了一个名为CallifusionV2的系统，旨在生成具有个性化和灵活多模态控制的自然中国书法。该系统与以往依赖单一图像或文本输入的方法不同，它结合了图像和自然语言文本输入，以细粒度控制生成过程。CallifusionV2通过少量样本学习快速学习新风格，并且能够在没有预先训练的情况下生成非中文字符。

1.方法

研究方法的核心是利用去噪扩散概率模型（DDPMs）和U-Net模型作为骨干网络。该系统包括两个模式：CallifusionV2-base和CallifusionV2-pro**。在CallifusionV2-pro中，用户需要输入文本描述和作为参考影响生成过程的图像；而在CallifusionV2-base中，系统仅基于文本输入生成字符。系统通过训练一个具有两个不同输入集的模型来优化这两种模式，确保无论输入图像是否存在，都能生成一致的输出。

2.创新点

2.1多模态双模式系统

该系统能够适应不同用户的熟悉程度，无论是初学者还是专家，都能轻松生成中国书法。

2.2细粒度控制

用户可以精确控制每一笔的定位，这对于中国书法艺术非常重要。

2.3少量样本微调

系统能够通过极少的样本快速适应新的风格，包括一些数字字体。

2.4生成非中文字符

系统能够生成非中文字符，如日文和希腊字母等，展示了模型的泛化能力。

文章还详细描述了系统的训练过程，包括如何使用字符查找嵌入表、如何通过视觉变换器和中文BERT编码器生成交叉注意力嵌入，以及如何通过U-Net生成最终的书法作品。此外，文章还介绍了如何通过微调来适应新风格，并且只需要少量的新样本即可实现。

在实验部分，文章展示了系统在不同情况下的生成能力，包括对真实中国书法、个人手写字符和数字字体的输入。此外，还展示了系统在微调新风格和细粒度修改方面的能力。通过客观和主观评估，文章证明了系统生成的书法作品在质量和风格一致性方面的优越性。客观评估包括LPIPS、L1损失、RMSE和SSIM等指标，而主观评估则通过人类参与者的调查来完成。

总的来说，这篇文章提出了一个强大的多模态系统，能够生成高质量的中国书法作品，并且具有很高的灵活性和适应性。通过结合图像和文本输入，系统能够捕捉和再现中国书法的细微差别，为书法艺术的数字化创作提供了新的可能性。

论文链接：https://arxiv.org/pdf/2410.03787

二、GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs

这篇文章介绍了一个名为GenSim2的框架，旨在通过利用多模态和推理能力的大型语言模型（LLMs）来扩展机器人模拟数据的生成。该框架的核心目标是为复杂和现实的模拟任务自动创建任务并生成示范数据，特别是涉及铰接对象的长期任务。

1.创新点

1.1多模态任务生成

GenSim2利用多模态和推理LLMs生成复杂任务，这些任务不仅包含语义知识，还要求具有扩展的6自由度（6-DOF）运动和接触能力。

1.2自适应规划和RL求解器

为了为这些任务自动生成示范数据，文章提出了规划和RL求解器，这些求解器能够在对象类别内泛化，从而减少所需的人力工作。

1.3多任务语言条件策略架构

为了利用生成的数据，文章提出了一种有效的多任务语言条件策略架构，称为**proprioceptive point-cloud transformer (PPT)**。这种架构从生成的示范中学习，并展现出强大的从模拟到现实（sim-to-real）零样本迁移能力。

2.研究方法方面

文章提出了一个包含三个主要阶段的流程：任务生成、示范生成和策略训练与迁移。在任务生成阶段，通过LLM生成大规模的机器人任务并收集大量数据。在示范生成阶段，使用提出的规划器和RL求解器来生成任务的示范。最后，在策略训练与迁移阶段，提出了PPT架构，该架构能够有效地从模拟中生成的示范中学习，并在真实世界中实现零样本迁移。

文章还探讨了跨主题迁移的能力，即使用一个主题的微调模型来预测另一个主题的数据。此外，文章还验证了GenSim2生成的数据可以用于零样本迁移或与现实世界收集的数据共同训练，从而提高策略性能。

在实验部分，文章展示了GenSim2在生成任务和数据方面的有效性，并证明了使用GenSim2管道与设计的策略架构相结合可以实现20%的性能提升。这些实验结果证明了GenSim2在减少数据收集工作量和解决现实世界问题方面的潜力。

总的来说，这篇文章通过结合多模态LLMs和有效的策略架构，提出了一种新的方法来生成和利用大规模的模拟数据，以提高机器人策略的性能，并减少现实世界数据收集的需求。

论文链接：https://arxiv.org/pdf/2410.03645

需要的同学扫码添加我

回复“多模态”即可全部领取

三、MM-LDM: Multi-Modal Latent Diffusion Model for Sounding Video Generation

这篇文章介绍了一个名为MM-LDM的多模态潜在扩散模型，用于生成具有同步音频和视频的“发声视频”（Sounding Video Generation, SVG）。该模型旨在解决高维信号空间、不同数据格式和内容信息模式差异所带来的挑战。

1.研究方法

1.1数据表示的统一

通过将音频和视频数据转换为单一或一对图像，实现了两种模态数据的表示统一。

1.2层次化的多模态自编码器

构建了一个层次化的多模态自编码器，该编码器为每种模态创建了一个低层次的感知潜在空间和一个共享的高层次语义特征空间。前者在感知上等同于原始信号空间，但大大减少了信号维度。后者用于连接不同模态之间的信息差距，并提供更深入的跨模态指导。

1.3条件生成

通过训练单一的MM-LDM来同时学习三个分布，分别对应SVG、音频到视频和视频到音频的生成任务。这通过在输入潜在空间中添加条件信息来实现。

2.创新点

2.1多模态潜在扩散模型

这是首个为SVG任务设计的潜在扩散模型，该模型通过在潜在空间中建模SVG，显著降低了计算负担并提高了生成效率。

2.2共享的高层次语义特征空间

通过从低层次的感知潜在空间派生出共享的语义空间，为解码过程中的跨模态指导提供了一种新方法。

2.3跨模态损失的引入

包括音频-视频对抗损失、音频-视频对比损失和分类损失，这些损失函数用于优化训练过程中的语义特征空间，提高跨模态一致性。

文章通过在Landscape和AIST++数据集上的实验，验证了MM-LDM在所有评估指标上的综合性能提升，并在训练和采样速度上实现了更快的速度。此外，MM-LDM在开放域发声视频生成、长发声视频生成、音频延续、视频延续和条件单模态生成任务上展现了出色的适应性和泛化能力。

总的来说，这篇文章通过提出一种新的多模态潜在扩散模型，有效地解决了发声视频生成中的挑战，并在多个任务上达到了新的最先进性能。通过创新的模型架构和训练策略，实现了对音频和视频数据的有效建模，为未来多模态生成任务提供了新的可能性。

论文链接：https://arxiv.org/pdf/2410.01594

需要的同学扫码添加我

回复“多模态”即可全部领取

http://mp.weixin.qq.com/s?__biz=Mzk0NzcyNDQ3Nw==&mid=2247487959&idx=1&sn=bb511b460237648ccf3b95daa07de513

AI学术工坊

分享最新AI资源

最新文章

别再 “单打独斗”！特征融合技术带领深度学习模型 “组团出道”！

博士招生 | 智能交通、智能网联驾驶方向博士研究生招生(西交利物浦大学)

别让夜间眩光 “闪瞎” 视觉算法！Flare7K++ 带着解决方案闪亮登场

揭秘 LSTM与CNN的完美联姻，论文从此不再愁！

真实到离谱！1000 个如同人类 “克隆” 的个体进入西部世界，AI 相似度达到 85%，细节令人震撼！

CMAE横空出世，在视觉任务中取得惊人成果

多模态生成发文量飙升，最新成果统一两大技术，含金量爆表！

博士招生 | 澳门理工大学人工智能药物发现中心招收全奖博士生 (2025年入学)

重大突破！新型自适应程序助力多模态学习，弥补缺失模态性能短板！

从城市到高速，自动驾驶如何重塑交通版图？

Nature发声：“人类亲吻难题” 让LLM原形毕露！各大模型全军覆没，所谓强大的它们，根本不懂推理，仅仅是被高估的工具罢了。

超越传统：新型变换器框架在 WSSS 中展现卓越性能！

别人还在迷茫，目标追踪已凭借精准定位 “笑傲江湖”！

博士招生 | 深圳理工大学人工智能学院客座研究生招聘

绝绝子！VST++ 助力显著性检测，“实力圈粉” 没商量！

别人苦苦训练，HPT 模型0起步却让通用机器人性能 “一骑绝尘”！

3D人体姿势数据为何缺乏语言描述？PoseScript 数据集如何填补这一空白？

仅有少量样本，“小样本学习 + 多模态” 凭啥在 AI 领域风生水起？

博士招生 | 悉尼科技大学(QS世界排名88)招收2025年入学的数据科学/AI方向的博士生和访问学生学者

VSR 模型的 “逆天改命” 术 —— 提示调整，C 位出道！

被秀到了！图神经网络与强化学习的梦幻联动，开启了智能决策新纪元

哈佛突破：新一代AI精准诊断癌症，准确率惊人！

深度全卷积新贵 SegNet 登场，能否打破语义分割现有格局？

高光谱图像恢复大作战，看 Transformer 如何显神通！

大模型微调背后的神秘力量：你了解多少？

博士招生 | 香港科技大学广州-陈煌栒老师招收网络信息物理系统与人工智能的交叉方向的博士/RA

深度揭秘：计算机视觉 + 注意力机制融合，为何成为学术研究新宠

清华团队重磅突破！具身智能 Scaling Law 被破解，GPT 时刻或将来临，宁德时代联创助力

只训练一个GNN已过时？解耦图神经网络：多管齐下的神秘训练策略

时序 + CNN：顶会的 “奇葩” 但超有效的方向！

不可思议！RGBE-Gaze 数据集，让凝视追踪更上一层楼

博士招生 | 中科院物理所李迪组招聘【光学/图像/自动化/人工智能/细胞生物学】博/硕/科研助理

万能涨点&出创新点神器：对比学习！15种创新方法全面汇总

国务院：博士学位论文，不再非写不可

博士招生 | 香港理工大学2025博士生招生，每月近1.9万津贴

EfficientTrain++：一种高效视觉骨干训练的新突破

博士招生 | 福建医科大学健康数据科学博士招生研究方向：医疗大数据与人工智能

kaggle新赛 | 只要你有扎实得金融基础，刚刚好又会一点编程就能参加这个比赛！

图像超分辨：清华甩出Inf-DiT：Diffusion Transformer 任意分辨率上采样，可节省超过5倍显存！

招生 | 浙江大学吴超老师课题组招收偏计算机方向博士后和科研助理

kaggle新赛 | 只要你有扎实得金融基础，刚刚好又会一点编程就能参加这个比赛！

视觉跟踪新范式：MixFormer 的混合注意力机制与预训练策略

博士招生 | 英国顶尖大学卡迪夫大学招人工智能、机器学习算法及应用全奖博士或联培博士、教师

kaggle新赛 | 只要你有扎实得金融基础，刚刚好又会一点编程就能参加这个比赛！

博士招生 | 香港理工大学2025博士生招生，每月近1.9万津贴

kaggle新赛 | 只要你有扎实得金融基础，刚刚好又会一点编程就能参加这个比赛！

真实世界图像超分辨率：交互式调制如何应对复杂退化挑战？

kaggle新赛 | 只要你有扎实得金融基础，刚刚好又会一点编程就能参加这个比赛！

博士招生 | 南京大学智能科学与技术学院，范琦老师招收2025年入学的博士生，以及实习生、科研助理

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉