(精选报告来源:报告研究所)
1 Transformer 模型的演进:从语言翻译到多模态 智能的前沿探索
1.1 开篇:Robot +AI 的核心时间线与关键节点结论
下图是机器人和 transformer 模型结合的重点时间线及关键节点突破。
1.2 Transformer 网络架构的提出
2017 年,Google 的 Brain 团队发布了一篇文章“Attention Is All You Need”, 这篇文章中提出了 Transformer 网络结构。其一开始的提出是为了解决翻译问题, 仅仅依赖于注意力机制就可处理序列数据,从而摈弃了 RNN 或 CNN。这个新的 网络结构,刷爆了各大翻译任务,同时创造了多项新的记录(英-德的翻译任务, 相比之前的最好记录提高了 2 个 BLEU 值)。而且,该模型的训练耗时短,并且对 大数据或者有限数据集均有良好表现。
模型的核心架构的示意图如上。Transformer 模型的架构就是一个 seq2seq 架构,由多个 Encoder Decoder 堆叠而成。在此示意图中,Encoder 和 Decoder 都包含 6 个 block。Transformer 将所有的单词向量化,通过矩阵编译的方法开 始翻译以及预测,在翻译上一个词的同时对后续的单词进行预测,达到语句通顺的 效果。其实际上是一个编码器-解码器结构,其中编码器将原始语言的句子作为输 入并生成基于注意力的表征,而解码器关注编码信息并以回归方式生成翻译的句 子,和之前的 RNN 相同。不同的是,Transformer 模型引入了注意力机制和残差 链接,也就是所谓“Attention Is All You Need”,最终输出结果。
Transformer 的意义体现在它的长距离依赖关系处理和并行计算,而这两点 都离不开其提出的自注意力机制。首先,Transformer 引入的自注意力机制能够有 效捕捉序列信息中长距离依赖关系,相比于以往的 RNNs,它在处理长序列时的表 现更好。而自注意力机制的另一个特点时允许模型并行计算,无需 RNN 一样 t 步 骤的计算必须依赖 t-1 步骤的结果,因此 Transformer 结构让模型的计算效率更 高,加速训练和推理速度。
1.3 语言、图片、视频大模型的出现
语言,图片,视频大模型以大语言模型为基础,将强大的大语言模型作为大脑 来执行多模态任务。但 LLM 只能理解离散文本,在处理多模态信息时不具有通用 性。另一方面,大型视觉基础模型在感知方面进展迅速,但推理方面发展缓慢。这 两者的优缺点形成了巧妙的互补。由于上述不同点中的互补性,单模态 LLM 和视觉模型同时朝着彼此运行,结 合上部分的图像、视频和音频等等模态,最终带来了 MLLM 的新领域。形式上, 它指的是基于 LLM 的模型,该模型能够接收多模态信息并对其进行推理。从发展 人工通用智能的角度来看,MLLM 可能比 LLM 向前迈出一步。MLLM 更加符合 人类感知世界的方式,提供了更用户友好的界面(可以多模态输入),是一个更全 面的任务解决者,不仅仅局限于 NLP 任务。
上图包含了通用多模态模型结构的五个组件部分,以及每个组件部分的常用 选择。Modality Encoder:负责将不同模态的输入数据编码为模型可理解的表示, 目前技术可以实现输入图片、视频、音频文件,对于图像而言,可能涉及到将像素 数据转换成一个特征向量,该向量捕捉了图像中的重要信息;Input Projector:将不同模态的输入数据映射到共享的语义空间,这意味着 无论输入数据的形式如何,它们都会被转换成一个统一的格式,以便模型可以在一 个统一的框架中处理它们;LLMS:大型语言模型,用于处理文本数据,可以将不同模态的信息对齐到一 个共同的语义空间中,整合由前面两个部分转换后输入的信息,融合后再生成一个 统一的、丰富的语义表示,可能是相应的指导性文本或脚本,与专门的生成模型协 同工作,实现高质量的图片和音频生成;Output Projector:将模型生成的输出映射回原始模态的空间,如果模型的输 出是文本,那么输出投影器将确保生成的文本与输入数据的语义空间相匹配;
Modality Generator:根据输入数据生成对应的输出数据,将模型的内部表示转换成最终的输出形式,如生成图像、文本或音频。多模态理解主要是前三个部分。(模态对齐)训练期间,encoder,LLM Backbone 和 generator 一般保持冻结。主要优化输出和输出的 projector。由 于 Projector 是轻量级的模块,MM-LLMs 中可以训练的参数比例和总参数相比 非常小(2%左右),模型的总体参数规模取决于 LLM 部分。由此,Transformer 模型随着 LLM 的广泛应用而成为了目前多模态大模型的核心思想和目前较为先进 的网络架构。截至 2024 年 10 月,中国移动在多模态大模型领域取得了显著进展,其九天 善智多模态基座大模型表现尤为突出。该模型可以处理长文本的智能化解析,全双 工语音交互,拥有高质量的视频与图像处理能力,可以对结构化数据做深度洞察。
1.4 多模态、跨模态大模型的难点
其一是异质化数据的处理与整合存在困难:多模态大模型中,由于输入输出 的数据具有多样性,面临的主要问题包括数据的异质性导致的表示难题、不同模态 间的数据转换挑战、确定模态间元素联系的对齐问题、多模态信息的有效融合难点, 以及如何在不同模态间进行知识迁移的协同学习挑战。需要综合应用多元化多样 化的模型对其进行处理,将各个异质性的数据再整合规划,才能真正读懂要求,输 出数据. 其二是训练过程挑战重重:获取跨多个模态的充足数据可能非常困难和昂贵,且 数据可能会偏向于某些模态,导致模型产生偏见,从而导致模型偏向于数据量更多 或特征更强的模态,导致模型产生偏见;同时由于特定于模态的编码器通常分别训 练,他们声称的表示是存在差异的,对投影/对齐模块的有效学习过于依赖。
1.5 Scaling Law 的存在
在这其中,值得关注的是语言模型的 scaling law。大模型的 Scaling Law 是 OpenAI 在 2020 年提出的概念,可以概括为“预测即压缩、压缩即泛化、泛化即 智能”将大语言模型用在别的领域之后,从计算理论的角度,联合压缩多模态数据 理应获得比单模态更好的理论最优压缩器。对于所有的模态来说,他们都必须要服从的 scaling law 是,随着数据规模的 提升,模型的表现也会随之提升,如果法则正确,那么要想使得模型更好,只需要 搭建好算法和框架,不断收集数据就可以了。一旦证明 scaling law 的存在和有效 性,就可以预测模型性能与规模的关系,投入恰当规模的数据集,使得计算资源可 以更高效的应用。多模态模型会变得更加可预测和可计算,其不确定性就极大的降低了。
在此基础上,本文想要按时间线和核心 milestone 贡献,来帮助大家拆解最 近 1 年时间,robot 的 transformer 结合之旅是怎么演进的,从而去探讨真正前 沿的,以 transformer 为基础的模型到底会去往何处。
2 机器人现实世界至数据化的突破:RT-2、 RoboCat 与 MimicGen
2.1 谷歌 RT-2:具身智能学习
2.1.1 提出的问题与研究意义
本报告文件将分享到报告研究所知识星球,扫描下方图片中二维码即可查阅
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
入群方式:添加助理微信【touzireport666】,发送「个人纸质名片」或「电子名片」审核后即可入群。