12.12-3|多角色互动的漫画生成；T2I细粒度属性控制

文摘 2024-12-12 11:44 西藏

多模态生成与定制：多角色互动的漫画生成；T2I细粒度属性控制

DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation

2024-12-10｜PKU, Shanghai AI Lab, NTU, ByteDance|🔺25

http://arxiv.org/abs/2412.07589v1
https://huggingface.co/papers/2412.07589
https://jianzongwu.github.io/projects/diffsensei/

研究背景与意义

在当今的视觉叙事领域，故事可视化（story visualization）正迅速发展，尤其是在漫画生成方面。传统的漫画生成方法多集中于低级别的图像转换，未能有效满足个性化和多角色叙事的需求。当前的技术在生成具有多角色互动的场景时，往往缺乏对角色外观和互动的有效控制，导致生成的内容在叙事深度和视觉连贯性上存在显著不足。

因此，DiffSensei的提出不仅填补了这一研究空白，还为漫画生成带来了新的可能性。该研究通过引入MangaZero数据集，标志着在多角色定制漫画生成领域的一次重要突破，能够为角色的动态定制和叙事一致性提供强有力的支持。

研究方法与创新

DiffSensei是一个创新框架，结合了扩散模型和多模态大型语言模型（MLLM），旨在实现动态的多角色漫画生成。其核心创新点包括：

动态角色控制：DiffSensei允许角色根据文本提示动态调整外观、动作和表情，解决了传统方法在角色定制上的局限性。
MangaZero数据集：该数据集是为多角色、多状态漫画生成专门设计的，包含43,264个漫画页面及427,147个标注面板，极大丰富了训练数据的多样性和深度。
Masked Cross-Attention机制：通过在模型中引入masked attention injection，DiffSensei能够精确控制角色的布局，确保每个角色只关注其指定的区域，从而提高了生成内容的视觉一致性和叙事连贯性。
多模态适配：MLLM作为角色特征适配器，使得角色能够灵活响应文本提示，提升了生成图像的表达能力和丰富性。

这些创新共同推动了漫画生成技术的进步，使得DiffSensei在生成个性化和复杂叙事内容方面表现优异。

实验设计与结果分析

DiffSensei的实验设计包括多个阶段，首先通过MangaZero数据集训练模型，随后在未见角色的情况下进行评估。实验结果表明，DiffSensei在多项自动化指标上均优于现有基线模型，尤其在角色一致性和图像质量方面表现突出。具体而言：

FID（Fréchet Inception Distance）：DiffSensei的FID得分为0.407，显示出其生成图像的高质量。
CLIP和DINO指标：在图像和文本对齐及角色相似性方面，DiffSensei的得分均高于基线模型，证明其在保持角色一致性和叙事连贯性方面的优势。
人类偏好研究：通过人类评估，DiffSensei在整体偏好、角色一致性和图像质量等维度上获得了最高评分，进一步验证了其在生成生动且引人入胜的漫画故事方面的能力。

结论与展望

DiffSensei的研究不仅为漫画生成开辟了新路径，还为未来的视觉叙事技术提供了重要的参考。通过结合扩散模型和多模态大型语言模型，该框架实现了对角色的动态定制和叙事一致性的有效控制。未来，DiffSensei有望在更广泛的应用场景中展现其潜力，如游戏开发、动画制作等领域，同时也为进一步的研究提供了丰富的数据和方法论基础。随着技术的不断进步，定制化的漫画生成将成为视觉叙事领域的一个重要趋势。

FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models

2024-12-10｜Stanford, CUHK, ZJU, NTU S-Lab, Shanghai AI Lab, CPII under InnoHK｜NeurIPS 2024|🔺17

http://arxiv.org/abs/2412.07674v1
https://huggingface.co/papers/2412.07674
https://fiva-dataset.github.io/

研究背景与意义

在现代图像生成领域，文本到图像生成技术取得了显著进展，然而，用户在描述所需的视觉属性时常常面临挑战。尤其对于非专业人士来说，理解和应用艺术与摄影中的细微视觉特征变得尤为困难。为了解决这一问题，本文提出了FiVA（Fine-grained Visual Attribute）数据集，旨在通过细致的视觉属性分解，增强用户在图像生成过程中的控制力。

研究现状：

当前的文本到图像生成方法通常依赖于对源图像的身份和风格的提取，但“风格”这一概念过于宽泛，未能涵盖如光照、动态等其他重要属性。
现有方法在生成过程中缺乏对特定视觉属性的有效控制，因此限制了其在多样化应用中的实用性。

研究意义：

FiVA数据集的构建为细粒度视觉属性的提取提供了基础，使得用户可以更灵活地应用不同源图像的特征。
通过引入FiVA适配器，本文不仅提升了图像生成的可控性，还为多样化的用户需求提供了解决方案。

研究方法与创新

本文提出了一种新的视觉属性适配框架FiVA-Adapter，旨在解耦和适应来自一个或多个源图像的视觉属性，以生成符合用户需求的图像。

数据集构建：

FiVA数据集包含约100万张高质量生成图像，配有详细的视觉属性注释，利用先进的生成模型和自动化数据生成管道进行构建。
采用了一种系统化的方法，包括属性和主题的定义、提示创建、基于大型语言模型的过滤和人工验证，以确保数据集的质量。

FiVA-Adapter设计：

该框架的核心在于多图像双重交叉注意力模块，能够同时处理多个图像条件和文本提示，从而实现细粒度的视觉属性控制。
通过引入Q-Former模块，FiVA-Adapter能够提取与给定属性指令相对应的图像条件特征，为生成目标图像提供了强大的支持。

创新点：

相较于传统方法，FiVA-Adapter在属性提取的精确性和灵活性上有了显著提升，能够有效结合来自不同源图像的视觉特征，满足用户的多样化需求。

实验设计与结果分析

在实验中，FiVA-Adapter在多种属性类型上进行了广泛测试，结果表明其在精确控制属性提取、文本对齐和属性组合的灵活性方面均优于基线方法。

实验设置：

采用多种基线方法进行比较，包括Dreambooth-Lora、IP-Adapter等，设置了系统的评估指标，以确保结果的可靠性。
通过用户研究和GPT评分，评估生成图像的主题准确性和属性准确性。

结果分析：

实验结果显示，FiVA-Adapter在属性和主题的联合准确性上表现优异，尤其在处理复杂的视觉属性时，展现了良好的适应性和生成质量。

结论与展望

本文通过构建FiVA数据集和FiVA-Adapter框架，成功解决了现有文本到图像生成方法在控制细粒度视觉概念方面的局限性。未来的研究将集中在进一步优化数据集构建过程，探索更复杂的视觉属性，以推动图像生成技术的进步。

贡献总结：

提供了一种新的数据集和方法，增强了用户对图像生成的控制能力，为未来的研究和应用奠定了基础。

未来展望：

计划从专业摄影师和设计师那里收集高质量数据，结合人工注释，以构建更具现实感的数据集，并进一步提升生成模型的表现。

AI研究前瞻

欢迎来到AI研究前瞻 - 您的人工智能研究前沿指南！我们致力于为您提供最新、最前沿的AI研究论文解读和分析，并以通俗易懂的方式呈现其核心思想和潜在影响。一起探索AI的无限可能,共同见证人工智能改变世界的每一步!

12.18-2|检索生成一体的LLM；小模型生成多样化复杂指令；自我对弈和树搜索提高指令跟随；压缩特定分隔符提高LLMs推理效率

12.18-3|单视图三维场景重建；基于扩散模型的高保真换脸，遮挡和动态变化鲁棒性

12.18-4|使用 Patches 代替 token；自回归模型和扩散模型融合，双因子化框架；任意视图和光照的逆渲染

12.17-1|探究视频理解多模态模型的设计，视频理解关键因素分析；实例感知结构化视频描述框架，高保真文生视频

12.17-2|图像理解与生成模型结构设计；基于检索增强和显示控制的多模态音乐生成；无需训练的流匹配图像编辑

12.17-3|生物医学专家LLM，阿拉伯语英语双语

12.17-4|单图生成三维环境；大型动作模型，自主动作规划执行

12.17-5|高分辨率图像生成，无需调参的推理范式；物体插入和主题驱动生成任务的数据集；图片快速逆向到潜在空间，图片语义编辑

12.17-6|长上下文测试基准，KV Cache分析框架

12.16-1|感知、记忆和推理，长期多模态交互系统；评估MLLM几何准确感知能力；多模态扩散自回归结合；长语音多模态交互

12.16-2|多模态模型增强多参考图像生成；高效T2I，移动设备高分辨率图像生成

12.16-3|评估LLM排序能力；大规模带标签的Vllm真实用户交互数据集

12.16-4|多光源逆渲染，物理信息材质估计；物理信息高斯，偏微分方程求解

12.16-5|phi-4技术报告，训练过程及后训练过程公开；从网络教程中学习操作的GUI智能体

12.13-1|多机位视频生成，多视角同步，动态一致性

12.13-2|大规模场景图标注数据集；视频风格迁移；无反向流过程的文本指令图片编辑；平衡内容与风格的图片风格迁移

12.13-3|开放世界高性能VLLM；流式视频大模型交互；基于知识感知奇异值适配的PEFT

12.13-4|3DGS自适应致密化策略，高保真广义3D重建；3D空间推理基准数据集；高质量实时长序列人类动作生成

12.13-5|特定角色图像生成，姿势与外观控制，流场学习，虚拟穿衣

12.12-1|统一T2V和TI2V的视频生成；手机上生成视频；手机上通过Diffusion编辑视频；文DIT运动状态迁移

12.12-2|代码生成，人类偏好对齐，代码大语言模型

12.12-3|多角色互动的漫画生成；T2I细粒度属性控制

12.12-4|鲁棒的不失真的图像水印；RAG风险检测模型

12.12-5|通过学习真实世界动态性统一图片编辑与生成；文档内容提取基准；多实体视频生成三维运动控制

12.11-4|视觉运动策略，由粗到细的多尺度策略预测

12.11-5|线性 Transformer，门控Delta网络，提升MAmba2表现

12.11-6|文本水印，隐写术，语义保持

12.11-1|强化学习智能体记忆，分类与评估，长期记忆，短期记忆，程序性记忆，陈述性记忆，记忆标准化

12.11-2|数学推理错误识别能力评估；潜在空间推理，连续思维

12.11-3|基于视觉的全球定位；视频 Token表示；多粒度图片标注；无标注视频中3D重建；地理空间视觉嵌入；稀疏视图重建

12.10-1|InternVL 2.5，超越闭源模型的开源MLLM；多步复杂推理的多模态指令调优数据集；多智能体T2V框架

12.10-2|使用人类反馈改善T2V对齐；文本引导的实时图片编辑；生成连贯和动态的多事件视频

12.10-3| 机器人操控，从视频数据中学习动作，动作 token

12.10-4|面向实际应用场景的大语言模型；提高优化器内存效率；对话元素建模，对话能力增强

12.10-5|动量高斯自蒸馏，提高3DGS大规模场景隐式重建性能； 2DGS-Room，高质量室内场景重建

12.7-1|压缩VLLM视觉 token 数量，保持性能；VLLM不同细粒度多层次视觉特征融合

12.7-2|VLLM代码生成，机器人开放世界时空约束故障检测；跨平台纯视觉GUI智能体

12.7-3|无引导噪声空间扩散；使用Adapter让模型有多视角生成能力；高分辨率自回归图像生成；多服装虚拟穿衣

12.7-4|无需训练的对抗性引导，负提示词合并；结构化3D潜在空间表示

12.7-5|合成数据生成能力评估；LLMs容量密度评估

12.6-1|多模态模型大小，分辨率与迁移学习能力；多模态理解与生成的统一Tokenizer；韩语VLLM前沿

12.6-2|随机尺度CFG+负提示词引导的增强单步扩散模型；动态对抗训练框架的动态扩散模型

12.6-3|DF Models蒸馏，3D LiDAR场景补全；Video-3D LLM，3D场景理解；单图多实例3D重建

12.6-4|单镜头视频生成360°全景视频；未对齐的稀疏视角增强新视角合成

12.6-5|LLM大学数学能力评估基准；从单张图片构建全身可动的数字化身

12.5-2|关键 token的识别与优化，推理能力提升；过程奖励模型；多智能体通信与协助框架

12.5-3|多模态模型拟人化听觉能力基准；3D场景理解，识别、缩放任务相关区域

12.5-4|LLM端到端的事实准确性评估；OCR噪声对RAG影响的评估

12.5-5|图像Tokenizer，分组球面量化；自然语言描述的图像分割数据增强；混合CPU推理性能优化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉