MIT提出了一种异构预训练Transformer模型

文摘 2024-10-10 22:04 湖北

Scaling Proprioceptive-Visual Learning with

Heterogeneous Pre-trained Transformers

NIPS2024

论文提出了异构预训练的Transformer模型（Heterogeneous Pre-trained Transformers，HPT），该模型通过预训练一个大型的、可共享的策略神经网络主体，以学习任务和形态无关的共享表示。这个通用架构将来自不同形态的特定本体感受和视觉输入对齐到一个简短的令牌序列，然后处理这些令牌以映射到不同任务的机器人控制。借助最近的大规模多形态真实世界机器人数据集，以及仿真、部署的机器人和人类视频数据集，研究了在异质性中预训练策略的影响。作者进行实验来研究训练目标的扩展行为，涵盖多达52个数据集。HPT的性能优于多个基线模型，并且在多个仿真基准测试和真实世界场景中的未见任务上的微调策略性能提升了20%以上。

论文链接

https://arxiv.org/pdf/2409.20537v1

Overview

HPT 被模块化为stems, trunk, heads。stem由感觉分词器和视觉分词器组成。trunk（即 Transformer）将串联的标记映射到共享表示形式。然后，head 将已处理的令牌映射到不同下游任务中的操作。trunk通过监督学习在动作标记数据上共享和预训练，然后转移到新的实施例。此过程最多可扩展到 52 个数据集和 1B 参数。

Experiments

HPT与baseline比较有着显著的提升。在多个仿真基准测试和真实世界场景中的未见任务上的微调策略性能提升了20%以上。

EAFormer: Scene Text Segmentation with

Edge-Aware Transformers

ECCV2024

文章提出了框架EAFormer，该方法首先设计一个文本边缘提取器来检测边缘并过滤掉非文本区域的边缘。然后提出了一个边缘导向编码器，使模型更多地关注文本边缘。最后预测场景文本掩码。在常用的基准测试进行了广泛的实验，证明了EAFormer 的性能优于以前的方法，特别是在文本边缘的分割方面表现更好。

论文链接

https://arxiv.org/pdf/2407.17020

Framework

EAFormer 由三个模块组成：文本边缘提取器、边缘导向编码器和文本分割解码器。'SA'、'CA' 和 'FFN' 分别代表自注意力、交叉注意力和前馈网络。

Experiment

与以前的方法相比，EAFormer 在大多数基准测试中都能实现 fgIoU 和 F-score 的明显提升。例如，在 TextSeg 上，EAFormer 在 fgIoU 和 F 分数方面分别比之前的 SOTA 方法 TextFormer 高出 0.64% 和 0.6%。

Visual Autoregressive Modeling: Scalable Image

Generation via Next-Scale Prediction

NIPS2024

文章提出了视觉自回归模型这是一种新的生成范式，它将图像上的自回归学习重新定义为由粗到精的"下一尺度预测"或"下一分辨率预测"，与标准的光栅扫描"下一阶段预测"不同。这种简单、直观的方法允许自回归( AR )变换快速学习视觉分布，并且可以很好地泛化：VAR首次使GPT型AR模型在图像生成中超过扩散模型。此外，还通过实验验证了VAR在图像质量、推理速度、数据效率和可扩展性等多个维度上优于DiT。

论文链接

https://arxiv.org/pdf/2404.02905v2

Framework

VAR 涉及两个独立的训练阶段。第 1 阶段：多尺度 VQ 自动编码器将图像编码为 K 分词映射 R = （r1， r2， . . . ， rK），并通过复合损失进行训练。第 2 阶段：通过次长预测训练 VAR 转换器：它需要（[s]， r1， r2， . . ， rK−1）作为（r1， r2， r3， . . . ， rK）的输入。注意力掩码用于训练，以确保每个 rk 只能关注 r≤k。

Experiment

VAR 不仅实现了最佳的 FID/IS，而且在图像生成方面也表现出了非凡的速度。VAR 还保持了不错的精度和召回率，证实了其语义一致性。

写作总结

论文1这篇论文的写作思路围绕异质机器人学习展开。首先，作者指出当前机器人学习面临的主要问题是硬件和任务的多样性，并借鉴自然语言处理和视觉领域的基础模型经验，提出通过预训练来解决异质性问题。最后，文章总结了HPT的优势、局限性，并提出了未来的研究方向，如优化数据过滤和提升长时间任务的性能。
论文2详细和充足的讨论帮助读者加深对文章方法的理解
论文3的写作在“方法”部分从理论上分析了传统自回归模型的多个不足之处，并在后续篇幅中层层剖析作者自己方法的解决方案。这样的写作使得逻辑更加紧密

The End

VLRLab

分享者：张诚宋家俊管海粟

编辑：罗琪頔

审核：伏凌

免责声明：

（1）本文仅代表论文分享者观点，分享者不是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。

（2）本文观点不代表本公众号立场

VLRLab学习屋

发布华中科技大学VLRLab实验室的新闻资讯与动态

最新文章

武汉大学提出Hi-SAM，一种利用SAM进行多层次文本分割的统一模型。

北京大学提出了一种实时端到端检测器，名为RT-DETR

字节跳动提出LLaVA-NeXT-Interleave：一种面向多图像、视频和三维任务的多模态大模型方法

北京大学提出了一种高效的3D内容生成方法DreamGaussian

历史性突破！VLRlab大四学生团队首次在“挑战杯”揭榜挂帅专项赛斩获“擂主”

UCSD提出一种新的图像表示，它使用扩散模型促进输入图像的空间编辑。

就在明天！CSIG优博论坛将于11月3日在华中科技大学举办

华为提出EWEK-QA，一种高效通用的QA系统。

VLRLab团队受字节跳动安全与数据部门邀请，进行基于大模型的多模态风险内容识别的汇报

清华大学提出视觉语言模型CogAgent，专注于GUI的理解与导航。

VLRLab团队iPad本科生获ECCV 2024水下目标识别竞赛全球冠军

华南理工&华科提出一种Bridge text spotting方法，解决了两阶段方法中的错误累积和次优性能问题，同时保持模块化。

MIT提出了一种异构预训练Transformer模型

VLRLab团队研究生成果获ECCV2024首届数据集蒸馏竞赛亚军

VLRLab团队4篇论文入选人工智能领域国际顶会NeurIPS 2024

上海交通大学提出了一种有效的位置森林Transformer: PosFormer，用于手写数学表达式识别。(米兰）

VLRLab团队iPad本科生论文被PRCV 2024接收

复旦大学提出OccLLaMA，一种occ-language-action生成世界模型。

国科大提出Math-PUMA，一种三阶段的专注于渐进向上的多模态对齐方法。

VLRLab团队iPad本科生论文被Nature旗下期刊《Scientific Data》接收

甲骨文单字辅助破译数据集HUST-OBC

高质量甲骨文文字演变数据集EVOBC

前沿论文分享20240716

前沿论文分享20240708

任意粒度感知！IPad本科生发表顶级会议论文

VLRLab团队7篇论文入选计算机视觉国际顶会ECCV 2024

前沿论文分享20240702

前沿论文分享20240626

前沿论文分享20240618

前沿论文分享20240611

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉