12.18-1|使用智能体高效评估T2I和T2V；基于多模态大模型的交互式图片编辑；基于检索增强的图片序列着色

文摘 2024-12-18 10:40 西藏

视觉生成与编辑：使用智能体高效评估T2I和T2V；基于多模态大模型的交互式图片编辑；基于检索增强的图片序列着色

Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models

2024-12-10｜Shanghai AI Lab, NTU S-Lab|🔺22

http://arxiv.org/abs/2412.09645v2
https://huggingface.co/papers/2412.09645
https://vchitect.github.io/Evaluation-Agent-project

研究背景与意义

在视觉生成模型领域，近年来的进展显著，尤其是扩散模型的引入使得高质量图像和视频的生成成为可能。这一进步为内容创作、设计灵感等多个应用领域打开了新的大门。然而，现有的评估方法通常需要生成大量样本，这不仅耗费时间，还增加了计算成本。尤其是对于基于扩散的模型，评估过程的复杂性和高昂的计算需求使得研究人员面临诸多挑战。因此，提出一种高效、灵活的评估框架显得尤为重要。

研究方法与创新

本研究提出的评估框架——Evaluation Agent，旨在通过模仿人类评估策略来提升视觉生成模型的评估效率。其主要创新点包括：

动态评估路径：Evaluation Agent根据中间结果动态调整评估流程，能够有效识别模型的细微行为和局限性，从而避免冗余测试。
开放式用户输入：与现有评估框架不同，该框架支持开放式用户输入，允许灵活定制评估标准，满足多样化的用户需求。
可解释性和详细结果：提供超越单一数值评分的可解释性分析，使得评估结果对专家和非专家均易于理解。
可扩展性：该框架支持新评估指标和工具的无缝集成，确保其适应性和成长性。

通过在多个场景下的实验验证，该框架展示了与传统方法相比，显著降低了评估时间，同时保持了评估结果的准确性。

实验设计与结果分析

本研究对Evaluation Agent的有效性进行了多轮实验，涵盖了图像生成（T2I）和视频生成（T2V）任务。实验结果表明：

时间成本显著降低：与传统评估方法相比，Evaluation Agent在评估时间上减少了超过90%。
结果一致性高：在多个维度的评估中，Evaluation Agent的预测准确性与标准基准相当，显示出其在实际应用中的可靠性。

结论与展望

本研究的贡献在于提出了一种全新的评估范式，超越了传统评估框架的局限，提供了一种高效、灵活的评估方法。未来，我们期待通过开源这一框架，进一步推动视觉生成模型评估方法的研究与发展，同时探索其在更广泛应用场景中的潜力。

BrushEdit: All-In-One Image Inpainting and Editing

2024-12-13｜PKU, Tencent PCG, CUHK, THU|🔺19

http://arxiv.org/abs/2412.10316v2
https://huggingface.co/papers/2412.10316
https://liyaowei-stu.github.io/project/BrushEdit/

研究背景与意义

在当前的图像编辑领域，尽管图像生成技术取得了显著进展，但现有的编辑方法仍面临诸多挑战，尤其是在处理大规模修改时。这些方法通常依赖于逆向噪声和指令基础的操作，导致用户在编辑时受到限制。当前的逆向编辑方法在进行大范围的对象添加或删除时表现不佳，而指令基础的方法又常常将用户限制在黑箱操作中，无法有效地进行交互式编辑。因此，本文提出的BrushEdit框架旨在解决这些问题，提供一种更为灵活和高效的交互式图像编辑体验。

研究方法与创新

BrushEdit结合了多模态大语言模型（MLLMs）和双分支图像修复模型，形成了一种新的指令驱动的图像编辑框架。该框架通过以下四个步骤实现编辑：

编辑类别分类：确定所需的编辑类型。
主要编辑对象识别：识别需要编辑的主要对象。
编辑掩模和目标描述生成：生成编辑掩模及其对应的目标描述。
图像修复：执行实际的图像编辑操作。

BrushEdit的创新点在于其能够处理任意形状的掩模，避免了传统方法中因掩模形状不同而造成的性能下降。此外，BrushEdit通过集成现有的预训练多模态大语言模型，显著提高了语言理解和可控图像生成的能力，使得用户能够通过自然语言指令进行灵活的交互式编辑。

实验设计与结果分析

在实验设计中，BrushEdit通过在多个基准测试上进行评估，展示了其在图像编辑和修复任务中的优越性能。具体而言，实验采用了PIE-Bench和BrushBench等数据集，覆盖了各种编辑类型和场景。结果显示，BrushEdit在背景保真度和文本对齐方面均优于现有的主流方法，如Blended Latent Diffusion和ControlNet，尤其在处理复杂编辑任务时表现出色。

结论与展望

BrushEdit的研究成果表明，结合多模态大语言模型与图像修复技术，可以有效提升图像编辑的质量和效率。未来的研究可以进一步探索如何优化模型的实时响应能力以及扩展其在其他领域的应用，如视频编辑和三维图像处理。此外，随着用户需求的多样化，如何实现更为智能化和个性化的编辑体验将是一个重要的研究方向。

ColorFlow: Retrieval-Augmented Image Sequence Colorization

2024-12-16｜THU, Tencent PCG - ARC Lab|🔺18

http://arxiv.org/abs/2412.11815v1
https://huggingface.co/papers/2412.11815
https://zhuang2002.github.io/ColorFlow/

研究背景与意义

在当前的数字图像处理领域，图像着色技术正逐渐成为一个重要的研究方向，尤其是在漫画和动画制作中。随着生成对抗网络（GANs）和变分自编码器（VAEs）的发展，虽然已有的技术在某些应用中表现出色，但在图像序列的颜色一致性和控制性方面仍存在显著挑战。传统方法往往依赖于单一图像进行着色，忽略了图像序列中角色和物体的身份一致性，这在实际工业应用中显得不够理想。因此，提出一种新的基于参考图像序列的着色方法显得尤为重要。

本论文提出了ColorFlow，一个创新的三阶段框架，旨在解决图像序列着色中的身份一致性问题。该方法的核心在于利用参考图像池中的信息，确保生成的颜色与参考图像保持一致，同时实现高效的图像着色。这一研究不仅具有理论上的创新性，也在实际应用中满足了市场对高质量图像着色的迫切需求。

研究方法与创新

ColorFlow的创新点体现在其三阶段的处理流程中：

检索增强管道（RAP）：该阶段负责从参考图像池中提取与输入黑白图像相关的颜色信息。通过将输入图像划分为多个重叠的小块，并利用预训练的CLIP图像编码器生成图像嵌入，RAP能够有效识别与输入图像最相似的颜色块，确保颜色信息的准确性和一致性。
上下文着色管道（ICP）：这一阶段通过强大的上下文学习机制，将检索到的颜色信息应用于黑白图像的着色过程中。采用双分支设计，ICP不仅能提取颜色身份，还能进行精确的着色，确保生成图像的高质量和一致性。
引导超分辨率管道（GSRP）：在着色完成后，GSRP负责将低分辨率的颜色图像提升至高分辨率，减少由于下采样带来的结构失真。通过结合原始高分辨率图像，GSRP确保了最终输出图像的细节和质量。

ColorFlow的优势在于其能够在不需要针对每个身份进行微调的情况下，实现稳健且可泛化的着色效果。这一方法不仅提升了图像着色的质量，还为工业应用提供了新的解决方案。

实验设计与结果分析

在实验设计方面，ColorFlow通过构建ColorFlow-Bench，一个包含30个漫画章节的综合基准，进行系统评估。每个章节包含50个黑白漫画页面和40个参考图像，确保了评估的全面性和有效性。实验结果表明，ColorFlow在多项评估指标上均优于现有的主流模型，尤其是在像素级和图像级的评估中，ColorFlow显著提高了FID指标，且在用户研究中得分最高，证明了其在美学质量和颜色一致性方面的优势。

结论与展望

ColorFlow的提出为参考基于图像序列的着色任务开辟了新的研究方向。通过三阶段的框架设计，ColorFlow不仅解决了现有技术在身份一致性和颜色控制方面的不足，还展示了在实际应用中的广泛潜力。未来的工作将集中在进一步优化模型的效率和泛化能力，并探索其在其他领域（如视频着色和实时应用）中的应用可能性。

AI研究前瞻

欢迎来到AI研究前瞻 - 您的人工智能研究前沿指南！我们致力于为您提供最新、最前沿的AI研究论文解读和分析，并以通俗易懂的方式呈现其核心思想和潜在影响。一起探索AI的无限可能,共同见证人工智能改变世界的每一步!

12.18-2|检索生成一体的LLM；小模型生成多样化复杂指令；自我对弈和树搜索提高指令跟随；压缩特定分隔符提高LLMs推理效率

12.18-3|单视图三维场景重建；基于扩散模型的高保真换脸，遮挡和动态变化鲁棒性

12.18-4|使用 Patches 代替 token；自回归模型和扩散模型融合，双因子化框架；任意视图和光照的逆渲染

12.17-1|探究视频理解多模态模型的设计，视频理解关键因素分析；实例感知结构化视频描述框架，高保真文生视频

12.17-2|图像理解与生成模型结构设计；基于检索增强和显示控制的多模态音乐生成；无需训练的流匹配图像编辑

12.17-3|生物医学专家LLM，阿拉伯语英语双语

12.17-4|单图生成三维环境；大型动作模型，自主动作规划执行

12.17-5|高分辨率图像生成，无需调参的推理范式；物体插入和主题驱动生成任务的数据集；图片快速逆向到潜在空间，图片语义编辑

12.17-6|长上下文测试基准，KV Cache分析框架

12.16-1|感知、记忆和推理，长期多模态交互系统；评估MLLM几何准确感知能力；多模态扩散自回归结合；长语音多模态交互

12.16-2|多模态模型增强多参考图像生成；高效T2I，移动设备高分辨率图像生成

12.16-3|评估LLM排序能力；大规模带标签的Vllm真实用户交互数据集

12.16-4|多光源逆渲染，物理信息材质估计；物理信息高斯，偏微分方程求解

12.16-5|phi-4技术报告，训练过程及后训练过程公开；从网络教程中学习操作的GUI智能体

12.13-1|多机位视频生成，多视角同步，动态一致性

12.13-2|大规模场景图标注数据集；视频风格迁移；无反向流过程的文本指令图片编辑；平衡内容与风格的图片风格迁移

12.13-3|开放世界高性能VLLM；流式视频大模型交互；基于知识感知奇异值适配的PEFT

12.13-4|3DGS自适应致密化策略，高保真广义3D重建；3D空间推理基准数据集；高质量实时长序列人类动作生成

12.13-5|特定角色图像生成，姿势与外观控制，流场学习，虚拟穿衣

12.12-1|统一T2V和TI2V的视频生成；手机上生成视频；手机上通过Diffusion编辑视频；文DIT运动状态迁移

12.12-2|代码生成，人类偏好对齐，代码大语言模型

12.12-3|多角色互动的漫画生成；T2I细粒度属性控制

12.12-4|鲁棒的不失真的图像水印；RAG风险检测模型

12.12-5|通过学习真实世界动态性统一图片编辑与生成；文档内容提取基准；多实体视频生成三维运动控制

12.11-4|视觉运动策略，由粗到细的多尺度策略预测

12.11-5|线性 Transformer，门控Delta网络，提升MAmba2表现

12.11-6|文本水印，隐写术，语义保持

12.11-1|强化学习智能体记忆，分类与评估，长期记忆，短期记忆，程序性记忆，陈述性记忆，记忆标准化

12.11-2|数学推理错误识别能力评估；潜在空间推理，连续思维

12.11-3|基于视觉的全球定位；视频 Token表示；多粒度图片标注；无标注视频中3D重建；地理空间视觉嵌入；稀疏视图重建

12.10-1|InternVL 2.5，超越闭源模型的开源MLLM；多步复杂推理的多模态指令调优数据集；多智能体T2V框架

12.10-2|使用人类反馈改善T2V对齐；文本引导的实时图片编辑；生成连贯和动态的多事件视频

12.10-3| 机器人操控，从视频数据中学习动作，动作 token

12.10-4|面向实际应用场景的大语言模型；提高优化器内存效率；对话元素建模，对话能力增强

12.10-5|动量高斯自蒸馏，提高3DGS大规模场景隐式重建性能； 2DGS-Room，高质量室内场景重建

12.7-1|压缩VLLM视觉 token 数量，保持性能；VLLM不同细粒度多层次视觉特征融合

12.7-2|VLLM代码生成，机器人开放世界时空约束故障检测；跨平台纯视觉GUI智能体

12.7-3|无引导噪声空间扩散；使用Adapter让模型有多视角生成能力；高分辨率自回归图像生成；多服装虚拟穿衣

12.7-4|无需训练的对抗性引导，负提示词合并；结构化3D潜在空间表示

12.7-5|合成数据生成能力评估；LLMs容量密度评估

12.6-1|多模态模型大小，分辨率与迁移学习能力；多模态理解与生成的统一Tokenizer；韩语VLLM前沿

12.6-2|随机尺度CFG+负提示词引导的增强单步扩散模型；动态对抗训练框架的动态扩散模型

12.6-3|DF Models蒸馏，3D LiDAR场景补全；Video-3D LLM，3D场景理解；单图多实例3D重建

12.6-4|单镜头视频生成360°全景视频；未对齐的稀疏视角增强新视角合成

12.6-5|LLM大学数学能力评估基准；从单张图片构建全身可动的数字化身

12.5-2|关键 token的识别与优化，推理能力提升；过程奖励模型；多智能体通信与协助框架

12.5-3|多模态模型拟人化听觉能力基准；3D场景理解，识别、缩放任务相关区域

12.5-4|LLM端到端的事实准确性评估；OCR噪声对RAG影响的评估

12.5-5|图像Tokenizer，分组球面量化；自然语言描述的图像分割数据增强；混合CPU推理性能优化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉