Scaling Proprioceptive-Visual Learning with
Heterogeneous Pre-trained Transformers
NIPS2024
论文提出了异构预训练的Transformer模型(Heterogeneous Pre-trained Transformers,HPT),该模型通过预训练一个大型的、可共享的策略神经网络主体,以学习任务和形态无关的共享表示。这个通用架构将来自不同形态的特定本体感受和视觉输入对齐到一个简短的令牌序列,然后处理这些令牌以映射到不同任务的机器人控制。借助最近的大规模多形态真实世界机器人数据集,以及仿真、部署的机器人和人类视频数据集,研究了在异质性中预训练策略的影响。作者进行实验来研究训练目标的扩展行为,涵盖多达52个数据集。HPT的性能优于多个基线模型,并且在多个仿真基准测试和真实世界场景中的未见任务上的微调策略性能提升了20%以上。
论文链接
https://arxiv.org/pdf/2409.20537v1
Overview
HPT 被模块化为stems, trunk, heads。stem由感觉分词器和视觉分词器组成。trunk(即 Transformer)将串联的标记映射到共享表示形式。然后,head 将已处理的令牌映射到不同下游任务中的操作。trunk通过监督学习在动作标记数据上共享和预训练,然后转移到新的实施例。此过程最多可扩展到 52 个数据集和 1B 参数。
Experiments
HPT与baseline比较有着显著的提升。在多个仿真基准测试和真实世界场景中的未见任务上的微调策略性能提升了20%以上。
EAFormer: Scene Text Segmentation with
Edge-Aware Transformers
ECCV2024
文章提出了框架EAFormer,该方法首先设计一个文本边缘提取器来检测边缘并过滤掉非文本区域的边缘。然后提出了一个边缘导向编码器,使模型更多地关注文本边缘。最后预测场景文本掩码。在常用的基准测试进行了广泛的实验,证明了EAFormer 的性能优于以前的方法,特别是在文本边缘的分割方面表现更好。
论文链接
https://arxiv.org/pdf/2407.17020
Framework
EAFormer 由三个模块组成:文本边缘提取器、边缘导向编码器和文本分割解码器。'SA'、'CA' 和 'FFN' 分别代表自注意力、交叉注意力和前馈网络。
Experiment
与以前的方法相比,EAFormer 在大多数基准测试中都能实现 fgIoU 和 F-score 的明显提升。例如,在 TextSeg 上,EAFormer 在 fgIoU 和 F 分数方面分别比之前的 SOTA 方法 TextFormer 高出 0.64% 和 0.6%。
Visual Autoregressive Modeling: Scalable Image
Generation via Next-Scale Prediction
NIPS2024
文章提出了视觉自回归模型这是一种新的生成范式,它将图像上的自回归学习重新定义为由粗到精的"下一尺度预测"或"下一分辨率预测",与标准的光栅扫描"下一阶段预测"不同。这种简单、直观的方法允许自回归( AR )变换快速学习视觉分布,并且可以很好地泛化:VAR首次使GPT型AR模型在图像生成中超过扩散模型。此外,还通过实验验证了VAR在图像质量、推理速度、数据效率和可扩展性等多个维度上优于DiT。
论文链接
https://arxiv.org/pdf/2404.02905v2
Framework
VAR 涉及两个独立的训练阶段。第 1 阶段:多尺度 VQ 自动编码器将图像编码为 K 分词映射 R = (r1, r2, . . . , rK),并通过复合损失进行训练。第 2 阶段:通过次长预测 训练 VAR 转换器:它需要 ([s], r1, r2, . . , rK−1) 作为(r1, r2, r3, . . . , rK) 的输入。注意力掩码用于训练,以确保每个 rk 只能关注 r≤k。
Experiment
VAR 不仅实现了最佳的 FID/IS,而且在图像生成方面也表现出了非凡的速度。VAR 还保持了不错的精度和召回率,证实了其语义一致性。
写作总结
论文1这篇论文的写作思路围绕异质机器人学习展开。首先,作者指出当前机器人学习面临的主要问题是硬件和任务的多样性,并借鉴自然语言处理和视觉领域的基础模型经验,提出通过预训练来解决异质性问题。最后,文章总结了HPT的优势、局限性,并提出了未来的研究方向,如优化数据过滤和提升长时间任务的性能。
论文2详细和充足的讨论帮助读者加深对文章方法的理解
论文3的写作在“方法”部分从理论上分析了传统自回归模型的多个不足之处,并在后续篇幅中层层剖析作者自己方法的解决方案。这样的写作使得逻辑更加紧密
The End
VLRLab
分享者:张诚 宋家俊 管海粟
编辑:罗琪頔
审核:伏凌
免责声明:
(1)本文仅代表论文分享者观点,分享者不是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。
(2)本文观点不代表本公众号立场