12.18-4|使用 Patches 代替 token；自回归模型和扩散模型融合，双因子化框架；任意视图和光照的逆渲染

文摘 2024-12-18 10:40 西藏

生成模型与多模态融合：使用 Patches 代替 token；自回归模型和扩散模型融合，双因子化框架；任意视图和光照的逆渲染

Byte Latent Transformer: Patches Scale Better Than Tokens

2024-12-13｜Meta FAIR, Paul G. Allen School, U Washington, U Chicago|🔺21

http://arxiv.org/abs/2412.09871v1
https://huggingface.co/papers/2412.09871
https://github.com/facebookresearch/blt

研究背景与意义

在当前的自然语言处理（NLP）领域，传统的基于 token 的语言模型（如BERT和GPT系列）在处理文本时依赖于固定的 tokenization 方法。这种方法虽然有效，但也存在一些固有的局限性，例如对输入噪声的敏感性和多语言处理的不平等性。本文提出的字节潜在变换器（Byte Latent Transformer, BLT）架构，首次实现了在字节级别上进行建模，从而在不依赖固定词汇的情况下，匹配了基于 token 的模型的性能。这一创新不仅解决了 tokenization 所带来的偏见问题，还提高了模型的推理效率和鲁棒性。通过动态分配计算资源，BLT能够更有效地处理复杂数据，从而在多种NLP任务中表现出色。

研究方法与创新

BLT的核心创新在于其动态可学习的字节分组方法，取代了传统的固定 tokenization 。这种方法通过根据下一个字节的熵动态分配计算资源，从而实现更加高效的模型训练和推理。具体而言，BLT使用了三个主要模块：局部编码器、全局潜在变换器和局部解码器。局部编码器负责将输入的字节序列编码为 patch 表示，而全局潜在变换器则在 patch 表示上执行自回归建模。局部解码器则将 patch 表示解码回字节序列。

与传统的 tokenization 模型相比，BLT能够在保持固定推理成本的情况下，同时增加模型和 patch 的大小。通过实验，研究者们展示了BLT在处理原始字节数据时的有效性，尤其是在长尾数据建模和对噪声输入的鲁棒性方面。

实验设计与结果分析

为了验证BLT的有效性，研究者们进行了多项实验，包括与多种基于 token 的模型的比较。实验结果表明，在相同的计算预算下，BLT在多个标准基准测试中表现出色，尤其是在常识推理和代码生成任务中。此外，BLT在较大的模型规模下展现出更好的扩展性，尤其是在推理效率方面，能够有效降低计算消耗。

研究还发现，BLT在处理复杂文本时的表现优于传统的 tokenization 模型，尤其是在面对输入噪声时，展现出更强的鲁棒性。这一发现为未来的NLP模型设计提供了新的思路，强调了字节级别建模的重要性。

结论与展望

BLT的提出为自然语言处理领域带来了新的视角，证明了字节级别建模的潜力。通过动态计算资源分配，BLT不仅提升了模型的推理效率，还在多种任务中展现了更强的鲁棒性。未来的研究可以进一步探索如何优化BLT的架构，以及如何将其应用于更广泛的NLP任务中。此外，随着计算能力的提升，BLT有望在更大规模的数据集上进行训练，从而推动自然语言处理技术的进一步发展。

Causal Diffusion Transformers for Generative Modeling

2024-12-16｜ByteDance|🔺15

http://arxiv.org/abs/2412.12095v1
https://huggingface.co/papers/2412.12095
https://github.com/causalfusion/causalfusion.git

研究背景与意义

在当前的生成建模领域，自回归（AR）模型和扩散模型是两种主流的方法。自回归模型通过条件化前面的所有数据来逐步生成序列，广泛应用于语言生成；而扩散模型则通过逐步去噪的方式生成高质量图像，尤其在视觉内容生成方面取得了显著进展。然而，这两种模型在数据分布因子化的方式上存在本质区别，导致各自在不同应用场景中的表现差异。

本论文提出了CausalFusion模型，旨在结合AR和扩散模型的优点，通过引入双因子化框架来提升生成能力。其核心在于利用序列和噪声水平的双重因子化，克服了传统模型在特定生成任务中面临的挑战，从而实现更高效的生成过程。CausalFusion不仅在图像生成的基准测试中取得了最先进的结果，还展示了在多模态生成任务中的潜力，为研究者提供了新的视角来探索自回归和扩散模型的统一学习。

研究方法与创新

CausalFusion的创新之处在于其双因子化框架，允许模型在生成过程中灵活选择序列和噪声水平的因子化方式。具体而言，模型设计为一个解码器-仅的变换器，通过对数据进行双重因子化，CausalFusion能够在自回归和扩散模式之间平滑过渡。这种灵活性使得模型能够以任意数量的AR步骤进行生成，从而在上下文推理中生成任意数量的 token 。

此外，CausalFusion还通过调整AR步骤和扩散步骤的数量，优化了模型在不同生成任务中的表现。研究中系统地分析了任务难度对生成效果的影响，提出了通过随机AR步骤和适当的损失加权来平衡训练信号的策略。这一方法有效提高了模型的生成能力，特别是在处理复杂的生成任务时，展现出更强的适应性。

实验设计与结果分析

本研究在ImageNet数据集上进行了大量实验，验证了CausalFusion的有效性。实验设计包括对比基线模型（如DiT）和不同配置的CausalFusion模型，评估其在图像生成任务中的表现。结果表明，CausalFusion在FID（Fréchet Inception Distance）指标上显著优于对比模型，显示出其在生成质量上的提升。

例如，在256×256分辨率的图像生成任务中，CausalFusion-L模型的FID为5.12，明显优于DiT-XL/2的9.62。这表明CausalFusion在较少参数的情况下，能够实现更高质量的生成。此外，CausalFusion还展现了在Zero-shot图像编辑和多模态生成任务中的能力，证明了其在实际应用中的广泛适用性。

结论与展望

CausalFusion模型的提出为自回归和扩散模型的结合提供了新的思路，展示了在多模态生成任务中的潜力。未来的研究可以进一步探索CausalFusion在不同领域的应用，如视频生成和图像到文本生成等。此外，优化模型架构和训练策略，提升其在更复杂场景下的表现，将是后续研究的重要方向。通过这些努力，CausalFusion有望推动生成建模领域的进一步发展，为多模态学习提供更强大的工具。

IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations

2024-12-16｜CUHK, ZJU, Shanghai AI Lab|🔺10

http://arxiv.org/abs/2412.12083v1
https://huggingface.co/papers/2412.12083
https://lizb6626.github.io/IDArb/

研究背景与意义

在计算机视觉领域，从图像中获取几何和材料信息始终是一个基本挑战。传统的优化方法通常需要数小时的计算时间来重建几何、材料属性和环境光照，而学习型方法则借助丰富的材料先验，但在多视图一致性方面面临困难。本文提出的IDArb模型，旨在通过扩散模型实现对任意数量图像在不同光照下的内在分解。这一研究不仅推动了逆渲染技术的进步，也为多视图一致性提供了新的解决方案，具有重要的理论和实际应用价值。

研究方法与创新

IDArb的核心创新在于其交叉视图和交叉域注意力模块，以及增强光照和视图适应的训练策略。通过这些技术，模型能够在多视图输入下保持一致的内在成分估计，包括反照率、法线、金属度和粗糙度。此外，ARB-Objaverse数据集的引入为模型的训练提供了丰富的多视图内在数据和多样化的光照条件，极大地增强了模型的鲁棒性和泛化能力。

交叉视图注意力模块：该模块通过融合不同视图的信息，减少了多视图间的模糊性，确保了内在成分的一致性。
增强光照训练策略：通过在训练中引入多种光照条件，模型能够更好地适应复杂的光照环境，提高了在实际应用中的表现。
ARB-Objaverse数据集：这一新数据集包含570万张多视图RGB图像及其内在成分，为模型的训练提供了强有力的支持。

实验设计与结果分析

在实验中，IDArb在合成和真实数据上进行了广泛评估，结果表明其在内在分解任务上显著优于现有的最先进方法。通过与多种基准方法的对比，IDArb在反照率、法线、金属度和粗糙度的估计上均表现出色，且在多视图设置下的性能提升尤为明显。

合成数据结果：IDArb在反照率估计中有效去除了高光和阴影，提供了准确的几何形状；在金属度和粗糙度的估计中，模型成功消除了光照和纹理的干扰。
真实数据结果：尽管IDArb是在合成数据上训练的，仍然能够很好地推广到真实世界的图像，生成高质量的分解结果。

结论与展望

IDArb为内在分解提供了一种统一的解决方案，能够在多视图和不同光照条件下进行有效的内在成分估计。未来的研究可以集中在改进模型对复杂物体的材料映射能力上，并探索更高效的交叉视图注意力机制，以应对高分辨率下的密集输入视图的挑战。IDArb的成功应用不仅为逆渲染技术的发展奠定了基础，也为实际的3D内容创建和编辑提供了新的可能性。

AI研究前瞻

欢迎来到AI研究前瞻 - 您的人工智能研究前沿指南！我们致力于为您提供最新、最前沿的AI研究论文解读和分析，并以通俗易懂的方式呈现其核心思想和潜在影响。一起探索AI的无限可能,共同见证人工智能改变世界的每一步!

12.18-2|检索生成一体的LLM；小模型生成多样化复杂指令；自我对弈和树搜索提高指令跟随；压缩特定分隔符提高LLMs推理效率

12.18-3|单视图三维场景重建；基于扩散模型的高保真换脸，遮挡和动态变化鲁棒性

12.18-4|使用 Patches 代替 token；自回归模型和扩散模型融合，双因子化框架；任意视图和光照的逆渲染

12.17-1|探究视频理解多模态模型的设计，视频理解关键因素分析；实例感知结构化视频描述框架，高保真文生视频

12.17-2|图像理解与生成模型结构设计；基于检索增强和显示控制的多模态音乐生成；无需训练的流匹配图像编辑

12.17-3|生物医学专家LLM，阿拉伯语英语双语

12.17-4|单图生成三维环境；大型动作模型，自主动作规划执行

12.17-5|高分辨率图像生成，无需调参的推理范式；物体插入和主题驱动生成任务的数据集；图片快速逆向到潜在空间，图片语义编辑

12.17-6|长上下文测试基准，KV Cache分析框架

12.16-1|感知、记忆和推理，长期多模态交互系统；评估MLLM几何准确感知能力；多模态扩散自回归结合；长语音多模态交互

12.16-2|多模态模型增强多参考图像生成；高效T2I，移动设备高分辨率图像生成

12.16-3|评估LLM排序能力；大规模带标签的Vllm真实用户交互数据集

12.16-4|多光源逆渲染，物理信息材质估计；物理信息高斯，偏微分方程求解

12.16-5|phi-4技术报告，训练过程及后训练过程公开；从网络教程中学习操作的GUI智能体

12.13-1|多机位视频生成，多视角同步，动态一致性

12.13-2|大规模场景图标注数据集；视频风格迁移；无反向流过程的文本指令图片编辑；平衡内容与风格的图片风格迁移

12.13-3|开放世界高性能VLLM；流式视频大模型交互；基于知识感知奇异值适配的PEFT

12.13-4|3DGS自适应致密化策略，高保真广义3D重建；3D空间推理基准数据集；高质量实时长序列人类动作生成

12.13-5|特定角色图像生成，姿势与外观控制，流场学习，虚拟穿衣

12.12-1|统一T2V和TI2V的视频生成；手机上生成视频；手机上通过Diffusion编辑视频；文DIT运动状态迁移

12.12-2|代码生成，人类偏好对齐，代码大语言模型

12.12-3|多角色互动的漫画生成；T2I细粒度属性控制

12.12-4|鲁棒的不失真的图像水印；RAG风险检测模型

12.12-5|通过学习真实世界动态性统一图片编辑与生成；文档内容提取基准；多实体视频生成三维运动控制

12.11-4|视觉运动策略，由粗到细的多尺度策略预测

12.11-5|线性 Transformer，门控Delta网络，提升MAmba2表现

12.11-6|文本水印，隐写术，语义保持

12.11-1|强化学习智能体记忆，分类与评估，长期记忆，短期记忆，程序性记忆，陈述性记忆，记忆标准化

12.11-2|数学推理错误识别能力评估；潜在空间推理，连续思维

12.11-3|基于视觉的全球定位；视频 Token表示；多粒度图片标注；无标注视频中3D重建；地理空间视觉嵌入；稀疏视图重建

12.10-1|InternVL 2.5，超越闭源模型的开源MLLM；多步复杂推理的多模态指令调优数据集；多智能体T2V框架

12.10-2|使用人类反馈改善T2V对齐；文本引导的实时图片编辑；生成连贯和动态的多事件视频

12.10-3| 机器人操控，从视频数据中学习动作，动作 token

12.10-4|面向实际应用场景的大语言模型；提高优化器内存效率；对话元素建模，对话能力增强

12.10-5|动量高斯自蒸馏，提高3DGS大规模场景隐式重建性能； 2DGS-Room，高质量室内场景重建

12.7-1|压缩VLLM视觉 token 数量，保持性能；VLLM不同细粒度多层次视觉特征融合

12.7-2|VLLM代码生成，机器人开放世界时空约束故障检测；跨平台纯视觉GUI智能体

12.7-3|无引导噪声空间扩散；使用Adapter让模型有多视角生成能力；高分辨率自回归图像生成；多服装虚拟穿衣

12.7-4|无需训练的对抗性引导，负提示词合并；结构化3D潜在空间表示

12.7-5|合成数据生成能力评估；LLMs容量密度评估

12.6-1|多模态模型大小，分辨率与迁移学习能力；多模态理解与生成的统一Tokenizer；韩语VLLM前沿

12.6-2|随机尺度CFG+负提示词引导的增强单步扩散模型；动态对抗训练框架的动态扩散模型

12.6-3|DF Models蒸馏，3D LiDAR场景补全；Video-3D LLM，3D场景理解；单图多实例3D重建

12.6-4|单镜头视频生成360°全景视频；未对齐的稀疏视角增强新视角合成

12.6-5|LLM大学数学能力评估基准；从单张图片构建全身可动的数字化身

12.5-2|关键 token的识别与优化，推理能力提升；过程奖励模型；多智能体通信与协助框架

12.5-3|多模态模型拟人化听觉能力基准；3D场景理解，识别、缩放任务相关区域

12.5-4|LLM端到端的事实准确性评估；OCR噪声对RAG影响的评估

12.5-5|图像Tokenizer，分组球面量化；自然语言描述的图像分割数据增强；混合CPU推理性能优化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉