别人苦苦训练,HPT 模型0起步却让通用机器人性能 “一骑绝尘”!

2024-11-16 11:00   安徽  

大家有没有关注何恺明团队的新作呢?他们推出了全新的异构预训练 Transformer(HPT)模型。这个模型可不得了,它无需从头开始训练,就能轻松破解通用机器人模型的异构性难题,而且性能大幅提升,涨幅超过 20% 呢!目前,这项卓越的工作已经被 NeurIPS 2024 接收为 Spotlight。

除此之外,在预训练 Transformer 领域还有很多新的研究成果。就像 CVPR 2024 提出的零样本令牌剪枝方法 Zero - TPrune,同样无需训练就能达成低成本、高性能的效果。由此可见,当下人们对于预训练 Transformer 的研究热情丝毫未减。这主要得益于它拥有强大的语言理解能力、丰富的表示能力以及高效的迁移和计算能力,这些优势让它在众多任务中得到了广泛应用。

为了帮助大家全面掌握【预训练transformer】的方法并寻找创新点,本文总结了最近两年【预训练transformer】相关的16篇顶会顶刊论文研究成果,这些论文、来源、论文的代码都整理好了,希望能给各位的学术研究提供新的思路。

需要的同学扫码添加我

回复“预训练”即可全部领取

一、Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers

这篇论文介绍了一种名为“异构预训练变换器”(HPT)的新方法,它用于提升机器人模型的泛化能力,特别是在处理不同机器人硬件和任务时的数据异构性问题。以下是该论文的主要方法和创新点:

1.方法

1.1异构预训练

HPT通过在不同机器人硬件和任务的数据上进行预训练,学习一个通用的策略表示,以处理数据中的异构性。

1.2模块化架构

HPT将网络架构分为三个部分:特定于硬件的“stem”(处理输入),共享的“trunk”(Transformer,处理核心表示),以及任务特定的“head”(输出动作)。

1.3多模态输入处理

HPT能够处理来自视觉和本体感知等多种模态的输入,通过特定的tokenizer将这些输入转化为固定数量的tokens,然后由Transformer处理。

1.4大规模数据集

研究者们利用了包括真实机器人、模拟器和人类视频在内的大规模多模态数据集进行预训练。

1.5迁移学习

预训练好的模型可以通过迁移学习适应新的机器人硬件和任务,只需对特定的“stem”和“head”进行微调。

2.创新点

2.1跨模态和硬件的预训练

HPT是首个尝试在如此多不同模态和硬件上进行预训练的模型,这在机器人学习领域是创新的。

2.2共享表示空间

通过将不同硬件的感知信息映射到共享的潜在空间,HPT能够学习到更加通用的策略表示。

2.3大规模实验验证

HPT在超过50个数据集上进行了实验,验证了其在不同任务和环境下的有效性,这是迄今为止规模最大的机器人预训练研究之一。

2.4性能提升

HPT在多个模拟基准测试和现实世界任务中显示出比基线模型更好的性能,特别是在未见任务上的成功率提高了超过20%。

总的来说,这篇论文提出了一种新的方法来处理机器人学习中的异构性问题,并通过大规模的预训练和迁移学习,展示了其在提升机器人模型泛化能力方面的潜力。

论文链接:https://arxiv.org/pdf/2409.20537

代码链接:https://liruiw.github.io/hpt/

二、Zero-TPrune: Zero-Shot Token Pruning through Leveraging of the Attention Graph in Pre-Trained Transformers

这篇论文介绍了一种名为Zero-TPrune的方法,它是一种用于压缩预训练Transformer模型的零样本(zero-shot)令牌修剪方法。以下是该论文的主要方法和创新点:

1.方法

1.1令牌修剪

Zero-TPrune通过修剪不重要的令牌(tokens)来减少模型的计算复杂度,特别是在输入序列较长时。

1.2注意力图

该方法利用预训练Transformer模型的注意力机制,将注意力矩阵视为一个有向图的邻接矩阵,其中令牌作为节点,注意力权重作为边。

1.3重要性评分

通过提出的加权PageRank(WPR)算法,Zero-TPrune为每个令牌分配一个重要性评分,以确定哪些令牌最重要。

1.4相似性修剪

除了重要性,Zero-TPrune还考虑令牌之间的相似性,以进一步修剪在特征上相似的令牌。

1.5零样本修剪

Zero-TPrune不需要在修剪后对模型进行微调,这与大多数需要昂贵计算资源进行微调的现有方法不同。

2.创新点

2.1无需微调

Zero-TPrune是一种零样本方法,它消除了修剪后对模型进行微调的需要,这在边缘部署情况下特别有用。

2.2注意力图的利用

通过将注意力矩阵转化为图,并在此图上运行WPR算法,Zero-TPrune能够识别并保留重要的令牌。

2.3重要性与相似性结合

Zero-TPrune不仅考虑令牌的重要性,还考虑令牌之间的相似性,这使得修剪过程更加精确和高效。

2.4即时配置切换

由于不需要微调,Zero-TPrune可以在不同的修剪配置之间即时切换,无需额外的计算成本。

2.5性能提升

在不牺牲准确性的情况下,Zero-TPrune显著提高了模型的推理速度,并减少了计算量。

总的来说,Zero-TPrune通过结合令牌的重要性和相似性,提供了一种有效的Transformer模型压缩方法,特别适用于计算资源受限的环境。

论文链接:https://arxiv.org/pdf/2305.17328

代码链接:https://jha-lab.github.io/zerotprune/

需要的同学扫码添加我

回复“预训练”即可全部领取

三、3D-VisTA: Pre-trained Transformer for 3D Vision and Text Alignment

这篇论文介绍了一个名为3D-VisTA的预训练Transformer模型,它用于3D视觉和文本对齐任务。以下是该论文的主要方法和创新点:

1.方法

1.1预训练Transformer模型

3D-VisTA利用自注意力层来处理单模态数据和多模态融合,无需复杂的任务特定设计。

1.2构建ScanScribe数据集

为了增强3D-VisTA在3D视觉语言任务上的性能,作者构建了ScanScribe数据集,这是第一个大规模的3D场景-文本对数据集,用于3D-VL预训练。

1.3自监督预训练

3D-VisTA通过遮蔽语言/对象建模和场景-文本匹配等自监督学习任务在ScanScribe数据集上进行预训练。

1.4下游任务微调

预训练好的3D-VisTA可以通过添加轻量级的任务头轻松适应各种下游任务,如3D视觉定位、密集描述、问题回答和情境推理。

2.创新点

2.1简单统一的模型架构

3D-VisTA提出了一个简单且统一的Transformer架构,可以轻松适应不同的下游任务,无需额外的辅助损失或优化技巧。

2.2大规模预训练数据集

ScanScribe数据集的构建为3D-VL领域的预训练提供了重要的资源,这是之前研究中所缺乏的。

2.3自监督学习

3D-VisTA的预训练不依赖于监督信号,而是通过自监督任务学习3D点云和文本之间的对齐。

2.4数据效率

3D-VisTA在有限的注释数据下也能表现出色,显示出优越的数据效率。

2.5多任务性能提升

预训练的3D-VisTA在多个3D-VL任务上都取得了最先进的结果,包括视觉定位、密集描述、问题回答和情境推理。

总的来说,3D-VisTA通过其简单的模型架构和大规模预训练数据集,在3D视觉语言任务上取得了显著的性能提升,同时保持了良好的数据效率和适应性

论文链接:https://arxiv.org/pdf/2308.04352

代码链接:https://3d-vista.github.io/

需要的同学扫码添加我

回复“预训练”即可全部领取



AI学术工坊
分享最新AI资源
 最新文章