12.7-3|无引导噪声空间扩散；使用Adapter让模型有多视角生成能力；高分辨率自回归图像生成；多服装虚拟穿衣

文摘 2024-12-07 13:39 西藏

扩散模型与图像生成：无引导噪声空间扩散；使用Adapter让模型有多视角生成能力，免修改模型结构；高分辨率自回归图像生成；多服装虚拟穿衣

A Noise is Worth Diffusion Guidance

2024-12-05｜Korea U, KAIST, Sookmyung Women’s University, HuggingFace|🔺19

http://arxiv.org/abs/2412.03895v1
https://huggingface.co/papers/2412.03895
https://cvlab-kaist.github.io/NoiseRefine/

研究背景与意义

近年来，文本到图像的扩散模型（T2I）取得了显著的进展，但在没有指导方法的情况下，生成高质量图像的能力仍然受到限制。现有的指导技术，如无分类器指导（CFG），虽然有效，但也显著增加了计算成本。因此，研究者们开始探讨是否可以在不依赖这些复杂指导方法的情况下，依然实现高质量图像生成。本文提出的NoiseRefine方法，旨在通过学习将初始随机噪声映射到无指导噪声空间，从而消除对指导的需求。

研究方法与创新

NoiseRefine方法的核心在于其创新的噪声优化策略。通过分析扩散模型中的噪声特性，作者们发现低频成分在去噪过程中起到了关键作用。具体来说，NoiseRefine通过一个单独的神经网络学习将标准高斯噪声映射到“无指导噪声”空间。这种方法不仅提高了图像生成的质量，还在计算效率上表现出色。

噪声映射学习：通过多步骤得分蒸馏（MSD）技术，NoiseRefine能够在训练过程中有效减少反向传播的计算负担，同时保持较高的生成质量。
低频成分的利用：研究表明，初始噪声中的小低频成分对生成过程至关重要，能够帮助扩散模型在早期阶段建立图像的整体布局。
高效的训练过程：NoiseRefine的训练只需要少量的模型生成图像，极大地降低了对大规模数据集的依赖，使其在普通GPU上也能高效运行。

实验设计与结果分析

实验部分通过定量和定性分析对NoiseRefine进行了全面评估。结果表明，使用NoiseRefine生成的图像在视觉质量和多样性上均优于仅依赖高斯噪声的生成方法。

定性分析：通过对比不同初始噪声生成的图像，发现使用NoiseRefine的图像在细节和整体结构上表现更佳。
定量评估：通过FID（Fréchet Inception Distance）和IS（Inception Score）等指标，NoiseRefine显示出明显的性能提升，表明其在生成质量和多样性上均优于传统方法。
用户研究：在用户偏好测试中，NoiseRefine生成的图像被评估为与使用指导方法生成的图像相当，甚至在某些情况下表现更好。

结论与展望

NoiseRefine方法展示了在扩散模型中无需依赖复杂指导技术的可能性，提出了一种新的噪声优化思路。未来的研究可以探索如何进一步提升模型的泛化能力，并在更广泛的应用场景中验证其有效性。此外，NoiseRefine的设计理念为其他生成模型的优化提供了新的视角，值得进一步深入探讨。

MV-Adapter: Multi-view Consistent Image Generation Made Easy

2024-12-04｜BUAA, VAST, SJTU|🔺12

http://arxiv.org/abs/2412.03632v1
https://huggingface.co/papers/2412.03632
https://huanngzh.github.io/MV-Adapter-Page/

研究背景与意义

在多视角图像生成领域，现有的方法通常需要对预训练的文本到图像（T2I）模型进行侵入式修改，并且需要全面微调，这导致了高昂的计算成本和图像质量的下降。本文提出了一种创新的适配器解决方案——MV-Adapter，旨在克服这些挑战。通过引入适配器机制，研究者们能够在不改变原有网络结构和特征空间的情况下，提高T2I模型的多视角生成能力。这一创新不仅降低了计算资源的需求，还保留了预训练模型中的先验知识，从而减轻了过拟合的风险。

研究方法与创新

MV-Adapter通过更新少量参数，提供了一种高效的训练方式，避免了传统方法的高计算成本。其核心创新包括：

重复自注意力层：MV-Adapter复制了原有模型的自注意力层，创建新的多视角注意力层和图像交叉注意力层，确保新层能够充分继承预训练模型的强大先验知识。
并行架构设计：与传统的串行方式不同，MV-Adapter采用并行架构，使得不同类型的注意力层能够同时处理输入，从而有效利用图像先验，提升生成质量。
统一条件编码器：该编码器整合了相机参数和几何信息，增强了模型在3D生成和纹理生成中的适用性。通过这种方式，MV-Adapter能够在多种条件下生成一致的多视角图像。

实验设计与结果分析

在实验中，MV-Adapter在多个模型和条件下进行了全面评估。结果显示，MV-Adapter在768分辨率下的多视角生成表现优异，能够在多个基准测试中超越现有的最先进技术。具体实验设计包括：

相机引导的多视角生成：通过与社区模型的对比，MV-Adapter展示了在不同输入条件下的适应性和生成质量。
几何引导的生成：评估了MV-Adapter在纹理生成任务中的表现，结果显示其在生成质量和一致性方面均优于其他方法。

结论与展望

MV-Adapter不仅为多视角图像生成提供了一种高效的解决方案，还为未来的研究开辟了新的可能性。其灵活的设计使得它能够与各种T2I模型兼容，展现出广泛的应用前景。未来的工作可以集中在进一步优化适配器结构，以支持更复杂的生成任务和更高分辨率的图像生成。

Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis

2024-12-05｜ByteDance|🔺9

http://arxiv.org/abs/2412.04431v1
https://huggingface.co/papers/2412.04431
https://github.com/FoundationVision/Infinity

研究背景与意义

在视觉生成领域，尤其是高分辨率图像合成中，研究者们面临着诸多挑战。传统的自回归模型（AutoRegressive Models）依赖离散的图像标记（token）进行生成，然而，这种方法在处理复杂的语言指令和细节重建时常常表现不佳。随着生成任务的复杂性增加，现有模型在图像质量和生成速度上均显得力不从心。因此，提出一种新的生成框架显得尤为重要。

本文提出的Infinity模型，基于比特视觉自回归建模（Bitwise Visual AutoRegressive Modeling），通过无限词汇分类器（Infinite-Vocabulary Classifier）和比特自我校正机制（Bitwise Self-Correction），显著提升了图像生成的质量与速度。Infinity不仅在生成能力上超越了传统模型，还在多个基准测试中设立了新的记录，为高分辨率图像生成提供了新的可能性。

研究方法与创新

Infinity模型的核心在于其独特的比特建模框架，主要包括以下几个创新点：

比特视觉标记器（Bitwise Visual Tokenizer）：将传统的离散标记替换为比特标记，允许模型以更高的精度进行特征重建。通过扩展词汇量至264，Infinity能够生成质量超越以往离散标记模型的图像，且在内存消耗上更为高效。
无限词汇分类器（Infinite-Vocabulary Classifier）：采用并行的二进制分类器，而非传统的多类别分类器。这种方法不仅降低了计算复杂度，还提高了模型对细节的捕捉能力，避免了因量化误差导致的细节损失。
比特自我校正机制（Bitwise Self-Correction）：通过在训练过程中引入随机翻转比特的策略，Infinity能够在生成阶段自我校正，显著减少了因教师强制训练带来的训练-测试不一致性问题，从而提升了生成图像的质量。
扩展模型规模与词汇：在模型训练中，Infinity展示了随着词汇量和模型规模的增加，生成能力的显著提升。这种扩展不仅提高了生成的细节和质量，还在推理速度上表现出明显优势。

实验设计与结果分析

Infinity模型的实验设计充分考虑了多种场景和基准测试。通过与现有顶尖模型（如SD3-Medium和SDXL）进行对比，Infinity在多个指标上均表现优异：

在GenEval基准上，Infinity的得分从0.62提升至0.73，显示出其在文本到图像生成中的优越性。
在图像奖励基准中，Infinity的得分从0.87提升至0.96，进一步证明了其生成图像的质量。
生成速度方面，Infinity能够在0.8秒内生成1024×1024的高质量图像，速度上比SD3-Medium快2.6倍，确立了其在文本到图像生成领域的领先地位。

结论与展望

Infinity模型的提出不仅为高分辨率图像生成带来了新的思路，也为未来的研究指明了方向。其在生成质量、速度和细节捕捉能力上的突破，展示了比特建模的巨大潜力。未来，随着技术的不断进步，Infinity有望在更广泛的应用场景中展现其能力，包括视频生成和动态场景重建等领域。

总的来说，Infinity通过其创新的模型架构和训练策略，为视觉生成领域开辟了新的可能性，推动了相关技术的发展。

AnyDressing: Customizable Multi-Garment Virtual Dressing via Latent Diffusion Models

2024-12-05｜ByteDance, THU|🔺8

http://arxiv.org/abs/2412.04146v1
https://huggingface.co/papers/2412.04146
https://crayon-shinchan.github.io/AnyDressing/

研究背景与意义

近年来，随着图像生成技术的迅速发展，尤其是基于潜在扩散模型（LDMs）的技术，虚拟试衣（Virtual Dressing）任务逐渐受到关注。这项任务旨在生成穿着特定服装的人物图像，具有广泛的应用前景，尤其是在电子商务和时尚设计领域。然而，现有方法在处理多种服装组合时，往往面临服装细节保留不足和文本提示一致性差的挑战。因此，本文提出了一种新颖的多服装虚拟试衣方法——AnyDressing，旨在解决这些问题。

研究方法与创新

AnyDressing的核心在于其双网络架构：GarmentsNet和DressingNet。GarmentsNet利用一项名为“服装特征提取器”的模块，能够并行提取多种服装的细节特征。这一设计有效避免了服装混淆问题，同时提高了网络的效率。DressingNet则通过自适应的Dressing-Attention机制和实例级服装定位学习策略，确保每种服装特征能够准确融入到相应的图像区域中。这种方法不仅提升了生成图像的质量，还增强了文本与图像的一致性。

在技术创新方面，AnyDressing引入了服装增强纹理学习策略，旨在提升合成图像中服装细节的表现。这一策略通过引入感知损失和高频损失，确保生成的图像在细节上与真实服装保持一致，进而提升了用户体验。

实验设计与结果分析

在实验设计中，作者采用了一系列定量与定性评估指标，包括文本一致性、纹理一致性和整体生成质量。实验结果表明，AnyDressing在单服装和多服装的生成任务中均显著优于现有的基准方法。在多服装虚拟试衣的场景中，AnyDressing不仅提高了服装的细节保留能力，还有效减少了背景污染和服装混淆现象。

通过用户研究，参与者对AnyDressing生成的图像在纹理一致性、文本提示对齐和整体质量等方面给予了高度评价，进一步验证了其在实际应用中的潜力。

结论与展望

本文提出的AnyDressing方法在多服装虚拟试衣领域中展现了卓越的性能，其双网络架构和创新的学习策略为未来的研究提供了新的思路。展望未来，研究者可以进一步探讨如何将AnyDressing与其他控制插件无缝集成，以提升生成图像的多样性和可控性。同时，针对更复杂场景的适应性和实时性也是未来研究的重要方向。

AI研究前瞻

欢迎来到AI研究前瞻 - 您的人工智能研究前沿指南！我们致力于为您提供最新、最前沿的AI研究论文解读和分析，并以通俗易懂的方式呈现其核心思想和潜在影响。一起探索AI的无限可能,共同见证人工智能改变世界的每一步!

12.18-2|检索生成一体的LLM；小模型生成多样化复杂指令；自我对弈和树搜索提高指令跟随；压缩特定分隔符提高LLMs推理效率

12.18-3|单视图三维场景重建；基于扩散模型的高保真换脸，遮挡和动态变化鲁棒性

12.18-4|使用 Patches 代替 token；自回归模型和扩散模型融合，双因子化框架；任意视图和光照的逆渲染

12.17-1|探究视频理解多模态模型的设计，视频理解关键因素分析；实例感知结构化视频描述框架，高保真文生视频

12.17-2|图像理解与生成模型结构设计；基于检索增强和显示控制的多模态音乐生成；无需训练的流匹配图像编辑

12.17-3|生物医学专家LLM，阿拉伯语英语双语

12.17-4|单图生成三维环境；大型动作模型，自主动作规划执行

12.17-5|高分辨率图像生成，无需调参的推理范式；物体插入和主题驱动生成任务的数据集；图片快速逆向到潜在空间，图片语义编辑

12.17-6|长上下文测试基准，KV Cache分析框架

12.16-1|感知、记忆和推理，长期多模态交互系统；评估MLLM几何准确感知能力；多模态扩散自回归结合；长语音多模态交互

12.16-2|多模态模型增强多参考图像生成；高效T2I，移动设备高分辨率图像生成

12.16-3|评估LLM排序能力；大规模带标签的Vllm真实用户交互数据集

12.16-4|多光源逆渲染，物理信息材质估计；物理信息高斯，偏微分方程求解

12.16-5|phi-4技术报告，训练过程及后训练过程公开；从网络教程中学习操作的GUI智能体

12.13-1|多机位视频生成，多视角同步，动态一致性

12.13-2|大规模场景图标注数据集；视频风格迁移；无反向流过程的文本指令图片编辑；平衡内容与风格的图片风格迁移

12.13-3|开放世界高性能VLLM；流式视频大模型交互；基于知识感知奇异值适配的PEFT

12.13-4|3DGS自适应致密化策略，高保真广义3D重建；3D空间推理基准数据集；高质量实时长序列人类动作生成

12.13-5|特定角色图像生成，姿势与外观控制，流场学习，虚拟穿衣

12.12-1|统一T2V和TI2V的视频生成；手机上生成视频；手机上通过Diffusion编辑视频；文DIT运动状态迁移

12.12-2|代码生成，人类偏好对齐，代码大语言模型

12.12-3|多角色互动的漫画生成；T2I细粒度属性控制

12.12-4|鲁棒的不失真的图像水印；RAG风险检测模型

12.12-5|通过学习真实世界动态性统一图片编辑与生成；文档内容提取基准；多实体视频生成三维运动控制

12.11-4|视觉运动策略，由粗到细的多尺度策略预测

12.11-5|线性 Transformer，门控Delta网络，提升MAmba2表现

12.11-6|文本水印，隐写术，语义保持

12.11-1|强化学习智能体记忆，分类与评估，长期记忆，短期记忆，程序性记忆，陈述性记忆，记忆标准化

12.11-2|数学推理错误识别能力评估；潜在空间推理，连续思维

12.11-3|基于视觉的全球定位；视频 Token表示；多粒度图片标注；无标注视频中3D重建；地理空间视觉嵌入；稀疏视图重建

12.10-1|InternVL 2.5，超越闭源模型的开源MLLM；多步复杂推理的多模态指令调优数据集；多智能体T2V框架

12.10-2|使用人类反馈改善T2V对齐；文本引导的实时图片编辑；生成连贯和动态的多事件视频

12.10-3| 机器人操控，从视频数据中学习动作，动作 token

12.10-4|面向实际应用场景的大语言模型；提高优化器内存效率；对话元素建模，对话能力增强

12.10-5|动量高斯自蒸馏，提高3DGS大规模场景隐式重建性能； 2DGS-Room，高质量室内场景重建

12.7-1|压缩VLLM视觉 token 数量，保持性能；VLLM不同细粒度多层次视觉特征融合

12.7-2|VLLM代码生成，机器人开放世界时空约束故障检测；跨平台纯视觉GUI智能体

12.7-3|无引导噪声空间扩散；使用Adapter让模型有多视角生成能力；高分辨率自回归图像生成；多服装虚拟穿衣

12.7-4|无需训练的对抗性引导，负提示词合并；结构化3D潜在空间表示

12.7-5|合成数据生成能力评估；LLMs容量密度评估

12.6-1|多模态模型大小，分辨率与迁移学习能力；多模态理解与生成的统一Tokenizer；韩语VLLM前沿

12.6-2|随机尺度CFG+负提示词引导的增强单步扩散模型；动态对抗训练框架的动态扩散模型

12.6-3|DF Models蒸馏，3D LiDAR场景补全；Video-3D LLM，3D场景理解；单图多实例3D重建

12.6-4|单镜头视频生成360°全景视频；未对齐的稀疏视角增强新视角合成

12.6-5|LLM大学数学能力评估基准；从单张图片构建全身可动的数字化身

12.5-2|关键 token的识别与优化，推理能力提升；过程奖励模型；多智能体通信与协助框架

12.5-3|多模态模型拟人化听觉能力基准；3D场景理解，识别、缩放任务相关区域

12.5-4|LLM端到端的事实准确性评估；OCR噪声对RAG影响的评估

12.5-5|图像Tokenizer，分组球面量化；自然语言描述的图像分割数据增强；混合CPU推理性能优化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

12.7-3|无引导噪声空间扩散； 使用Adapter让模型有多视角生成能力； 高分辨率自回归图像生成； 多服装虚拟穿衣

扩散模型与图像生成：无引导噪声空间扩散； 使用Adapter让模型有多视角生成能力，免修改模型结构； 高分辨率自回归图像生成； 多服装虚拟穿衣

A Noise is Worth Diffusion Guidance

研究背景与意义

研究方法与创新

实验设计与结果分析

结论与展望

MV-Adapter: Multi-view Consistent Image Generation Made Easy

研究背景与意义

研究方法与创新

实验设计与结果分析

结论与展望

Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis

研究背景与意义

研究方法与创新

实验设计与结果分析

结论与展望

AnyDressing: Customizable Multi-Garment Virtual Dressing via Latent Diffusion Models

研究背景与意义

研究方法与创新

实验设计与结果分析

结论与展望

12.7-3|无引导噪声空间扩散；使用Adapter让模型有多视角生成能力；高分辨率自回归图像生成；多服装虚拟穿衣

扩散模型与图像生成：无引导噪声空间扩散；使用Adapter让模型有多视角生成能力，免修改模型结构；高分辨率自回归图像生成；多服装虚拟穿衣