Meta的全栈Al路线图洞察 | 基于Joe Spisak在 Pay Summit 2024上的演讲

文摘 2024-10-19 11:28 美国

点击⬇️图标关注抓住你的灵感💡瞬间

引言

Llama 生态系统的蓬勃发展，下载量超过4亿次，推动了 AI 领域创业公司和应用的浪潮。本次基于Joe Spisak在 Pay Summit 2024上的演讲整理，将探讨开源生成式 AI 的深远影响，并提供 Llama 生态系统路线图。

Llama 生态系统的采用和增长

Llama 模型的下载量持续增长，衍生模型超过6.5万个，显示出 Llama 生态系统的广泛应用。
Llama 模型已与各大云服务提供商合作，使其更易于开发者访问和使用。
Llama 模型的使用量持续增长，成本也大幅降低，使得该技术更加普及。

Llama 模型的发展历程

Llama 1 由 Facebook AI Research (FAIR) 团队于2023年2月发布，最初用于定理证明研究。
Llama 2 于2023年7月发布，获得了商业许可，推动了企业级应用和模型微调的爆发式增长。
Llama 2 也成为 Meta AI 智能助理的基础，该助理已应用于 Meta 旗下多个应用程序中。
Llama 3 于2024年4月发布，推理能力和模型性能显著提升。
Llama 3.1 将上下文窗口扩展至128k，并发布了405B 参数的模型，为合成数据和模型蒸馏提供了新的可能性。

Llama 3 的多模态能力

Llama 3 新增了视觉模型，支持图像和文本输入，使其成为真正的多模态模型。
多模态模型的训练过程包括文本预训练、多模态预训练和模型对齐三个步骤。
预训练使用了约60亿个图文对，微调使用了6亿个高质量的精选数据。
合成数据生成技术在 Llama 3 的开发中发挥了关键作用，它可以生成高质量的图像和文本数据，用于模型微调和指令调整。

Llama 3 的应用场景

Llama 3 在视觉问答、文本理解、图表分析、手写方程式求解等方面展现出强大的能力。
Llama 3 在图像和文本基准测试中均取得了优异的成绩，证明了其多模态能力的有效性。

面向边缘设备的小型 Llama 模型

Meta 发布了1B 和 3B 参数的小型 Llama 模型，专为边缘设备和隐私敏感应用设计。
小型模型的开发采用了剪枝和蒸馏技术，并利用大型模型生成的合成数据进行微调。
小型模型在摘要、检索增强生成、写作辅助和代理应用等方面表现出色。

Llama Stack：构建 AI 代理的完整堆栈

Llama Stack 提供了稳定且易于使用的 API 和 CLI，简化了 Llama 模型的开发和部署流程。
Llama Stack 包含代理系统 API 和模型工具链 API，支持内存管理、安全防护、工具集成等功能。
多家云服务提供商和硬件厂商已采用 Llama Stack，为开发者提供更一致的体验和更强大的功能。

PyTorch：生成式 AI 的基础

PyTorch 是 Llama 模型开发和部署的核心组件，从模型训练到设备端部署都离不开 PyTorch 的支持。
PyTorch 生态系统提供了丰富的工具和库，例如：
TorchTune 用于模型微调
TorchTitan 用于大规模模型训练
TorchChat 用于模型推理
TorchCompile 用于代码优化
ExecutTorch 用于设备端部署

结语

Llama 生态系统正在快速发展，为 AI 领域带来了前所未有的创新和机遇。
Meta 致力于推动 Llama 模型和 PyTorch 生态系统的开源和普及，让更多开发者能够利用这些技术构建下一代 AI 应用。

Llama 生态系统的采用和增长

今天我要谈谈Llama，去年我只讲了Llama模型本身，范围比较窄，但今天我想更多地讨论Llama周边的东西，以及我们正在构建的整个技术栈，一些PyTorch组件，还有它几乎已经成为操作系统的趋势，非常酷。

对于不认识我的人来说，可能有些标志不太容易看清，我是Meta的Joe。我已经在开源和AI领域工作了超过10年，特别是在PyTorch、Llama、研究以及Meta AI团队中工作。此外，我还参与了一些天使投资，并为Lightning、Anthropic等公司提供建议。

好了，关于我就说这么多。Llama，谁在用Llama？谁在使用这些模型？希望房间里的每个人都举手了。太好了，Llama的采用率继续疯狂增长，真是不可思议。我想我们展示了Hugging Face上的下载量，每次我联系Hugging Face的Omar，他都会告诉我下载量又增加了1000万、2000万。衍生品正在快速涌现，已有超过6.5万个衍生品。所以人们正在使用Llama，他们在其基础上进行构建，并发布他们的模型。

这非常疯狂。我们有很多合作伙伴，每次发布新版本时，我们都希望模型能尽可能靠近用户。所以我们与AWS、IBM、Snowflake等公司合作，几乎所有人都在努力将Llama模型和我们的技术尽量靠近开发者。这非常棒，我想我们每次发布都会有接近30个合作伙伴参与，虽然这需要很多工作，但对开发者非常有帮助。

我们还看到实际使用中的增长，这是来自我们一些云服务提供商合作伙伴的数据。你可以看到增长曲线几乎一直在上升，没有放缓的迹象，这非常有趣。

同时，我们也看到了成本的大幅下降。谁注意到了这种“价格战”？你可以看到OpenAI和Google的价格战。这对我们来说是件好事，因为我们希望这项技术能被大众化。当我们在7月发布45B时，我们的朋友Fireworks以每百万token 3美元的价格发布。你可以用一个可以进行微调的前沿级别模型，部署在任何地方，比如你自己的数据中心，价格仅为3美元，这真的非常便宜，技术也真正惠及了所有人。

Llama 模型的发展历程

谁了解Llama的历史？去年我稍微提到了一些。Llama 1，顺便说一句，这些图片都是我在Meta AI上通过提示词生成的，你们可以自己去meta.a体验。实际上，谁了解开发Llama 1的团队？有几个人举手了。它实际上是Meta AI团队中Fair部门的人开发的，他们平时在做定理证明，晚上则训练大语言模型。他们在2023年2月发布了Llama 1，基本上是用他们能够获得的计算资源拼凑而成的。接下来他们引领了潮流，后来的事情大家都知道了，他们在LLM领域做了一些非常酷的事情。

真正的爆发发生在Llama 2。那时我们推出了商业许可证，Llama真正进入了企业级市场并用于商业用途。发布的第一天，我们就看到大量的用户在对模型进行微调，发布聊天机器人，并在不同环境中运行这些模型，无论是本地还是个人智能体，Llama都开始迅速爆发。

Llama 3来了，这似乎是很久之前的事情了，实际上是今年4月发布的。我会称这次发布为一次预发布，模型的上下文窗口较小，但推理能力以及模型整体性能相较Llama 2有了显著提升。我们同时对Meta AI进行了更新，性能提升非常明显。

然后在Llama 3.1中，我们真正扩展了上下文窗口，达到了一个更具实用性的长度，达到128k tokens。最重要的是，我们发布了45B，这是一次非常惊人的旅程，发布这个模型的过程非常艰难，但其影响力非常大。大量的工作正在围绕合成数据和模型蒸馏进行。你可以在自己的环境中微调并部署这个前沿规模的模型，我们将其量化到FP8格式，可以在单个H100或A100节点上部署。它真正让基础模型的强大力量惠及所有人，虽然模型体积很大，但它确实让每个人都有机会使用。

Llama 3 的多模态能力

上周谁看到我们的公告了？时机正好，今天你们会了解到更多上周发布的一些细节。上周我们发布了Llama 3.2模型，每次发布对我们来说都是一项巨大的努力，模型的发布非常艰难，耗费了无数个周末，付出了血汗和泪水，和各个合作伙伴一起，做安全红队测试等等，最后终于发布了。这次我们发布了视觉模型和一些其他模型，这是Llama的首个多模态模型。我们发布了11B和90B，你可以将它们看作我们的8B和70B的类似物。我们还支持了适配器权重，这些模型本质上是兼容的，它们支持图像输入和文本输入。你可以通过图像提示词和文本提示词，结合多模态输入，得到一个响应。

在训练这些模型时，LLM 本身仍然是传统的基于文本的预训练方式。就像我们对405B和其他模型做的那样，我们进行了大规模的预训练。对于多模态模型，我们也进行了预训练，生成一组独立的权重，然后将这些权重对齐。我稍后会详细解释我们如何生成这些数据，并进行基于人类反馈的强化学习（RLHF），以引导模型的表现方式，让它处理提示词时符合我们的预期。

关于数据的处理，以前我们的预训练是无监督的，主要处理大量的图像和文本，尤其是在LLM的训练中。而在SFT（监督微调）阶段，我们使用了一些公开的学术数据集，还有一些合成数据，我稍后会谈到，还有我们花费大量资金进行的人工标注数据。这些标注数据实际上是使模型变得出色的主要原因，因此尽管成本高昂，但还是值得的。

在预训练过程中，我们使用了大约60亿对图像-文本对，生成了预训练的适配器权重，与LLM的基于文本的权重配对使用。在此基础上，我们有6亿对高质量的精心策划的数据用于后续训练。

如果你还记得我们7月的讨论，当时我们谈到为405B生成合成数据，这对我们来说是一个革命性应用，因为有了这个基础模型，我们就可以用它开发更小的模型，生成后续训练的数据，它非常多功能，成为了一个平台，能够支持多种用途。

顺便说一下，有些内容还没有公开发布，你们会看到这个大模型在生成数据。你可以想象，用一个类似405B规模的模型生成图像和问题，进行提示词扩展、提示词多样化的操作，然后对生成的内容进行打分，最终这些内容会进入我们的SFT数据集，最终用于我们的指令微调。

这种方式使我们能够在后续训练中以前所未有的方式扩展数据规模。否则，你将需要花费巨额资金来雇佣人工标注，生成不同类型的提示词，成本对大多数公司来说是无法承受的。通过这种方式，我们能够大规模扩展数据，效果也非常显著。

Llama 3 的应用场景

我们看到了许多有趣的应用场景。例如，视觉问答类任务中，你可以提供一个图像提示词，比如“我应该多吃沙拉”，然后模型会返回一份配料清单，甚至估算卡路里含量。

还有文本理解场景，比如Llama 3的论文，谁看过Llama 3的论文？整整92页，非常棒的论文。我们可以将论文的大部分内容输入到模型中，因为它有很长的上下文长度，模型可以根据上下文进行学习，并生成准确的回答。比如我们问它Llama 3的参数和token数量，它的回答是正确的：405B模型有15万亿个token。

另外，还有图表分析，这也非常有趣。尽管模型的推理能力还不总是准确，目前整个社区都在努力让视觉模型的推理能力更加完善，但你可以看到模型已经开始给出详细的描述，甚至能够分析图表的内容，正在变得越来越实用。

还有像手写方程式这样的应用。你可以想象一下，如果你的孩子在做家庭作业，而你想检查他们的解答是否正确，虽然对我们大多数人来说这些可能比较简单，因为很多人是工程师，但你可以给模型一张图片，询问它如何解答，模型会逐步给出解答过程。

当然，我们也进行了大量基准测试，结果令人满意。这个模型不仅在图像任务中表现出色，在文本任务中的表现也非常好。这个模型的独特之处在于，它不仅对图像进行了优化，也针对文本进行了优化。因为我们知道，很多人仍然会将它作为语言模型使用。因此，对于我们自己来说，文本到文本的任务仍然非常重要，同时我们也增加了图像推理的能力。

面向边缘设备的小型 Llama 模型

另外一件对我来说非常重要的事情是小模型。谁用过1B和3B的模型？有人用它们做过移动应用程序或安卓应用吗？你们可以去GitHub看看，我们为安卓和iOS构建了完整的应用程序。我最后会展示一个演示，大家可以看看。我对这些模型的速度感到非常惊讶，尤其是1B的速度，真的非常快。

我们开始思考哪些应用对我们自己，作为Meta公司来说，会是有用的。然后我们开始与社区讨论，老实说，我已经为此推动了超过一年的时间，一直在思考我们该构建什么、什么会真正有用。所以，最终我们在上周发布了这些小模型，我对它们的性能非常满意。

我们还使用了1B模型，对它进行了剪枝和量化，并以Llama Guard的形式发布了这个安全模型。它只有500MB，非常便宜。我们已经让它运行在移动设备上，它可以作为一个安全模型在手机上运行，与核心LLM一起工作，效果非常好，运行速度也非常快，令人印象深刻。

在思考这些模型时，我们非常明确地考虑了哪些用例是我们要解决的。构建一个1B的模型非常困难，要让它非常通用，具有很强的推理能力，同时在编程、数学等多个领域表现出色。我们查看了很多边缘设备的使用场景以及我们试图推动的体验，最终决定在后续训练中专注于少数几个领域，比如摘要生成、检索增强生成（RAG）、写作助手等。虽然这些应用听起来不太吸引人，但像提示词重写、生成增强提示词等实用功能真的非常重要，尤其是对于开发者和一些注重隐私的应用来说，能在本地完成而不需要通过云端处理，这一点非常有用。

因此，我们决定在后续训练中专注于这些少数应用场景，并且对结果非常满意。我稍后会展示一些基准测试结果。为了达到这个目标，我们采用了剪枝和蒸馏的双重路径。我们有一个很强的基础模型，如何利用它来创建一个小而高效的模型呢？我们从8B模型开始剪枝，剪掉了一些权重，然后我们开始从8B和70B模型进行蒸馏，并使用从405B生成的合成数据进行训练。

我有一张更详细的图表，但有点复杂，所以没有放上来。不过你可以大概了解我们的工作。在预训练阶段，我们进行了知识蒸馏，基本上通过8B和70B模型生成下一token的概率，然后这些概率传递到1B和3B模型中。在后续训练中，事情变得非常有趣，我们从405B生成了高质量的合成数据，并使用这些数据对1B和3B进行了SFT训练。这就是为什么拥有一个高质量的基础模型如此强大，结果也确实说明了这一点。

你可以看到这里的结果，展示了我们专注的领域。BFCL和Nexus是工具使用的基准测试，所以我们希望这些模型在本地智能体应用中表现出色。可以看到这里的数字非常突出。VAL是指令跟随的基准测试，在某些领域我们的小模型得分甚至超过了更大的模型。例如，在BFCL和Nexus基准中，1B和3B模型的表现超出了预期，尤其是在本地智能体应用中的表现非常突出。

虽然这些基准测试只反映了一部分情况，它们更多的是学术性的指标，但它们验证了我们的很多假设。

Llama Stack：构建 AI 代理的完整堆栈

稍微转换一下话题，上周我们还发布了一个叫做Llama Stack的工具。在过去一年中，我们学到了一件事，虽然Llama模型很重要，但它们只是整个拼图中的一部分，而不是全部。我们不断收到反馈，比如“每次你们发布新模型时，系统提示词会发生变化，提示词格式也会改变，甚至输出格式如JSON和Python也不一样。”此外，云提供商和平台合作伙伴也反映，他们每次都需要重新集成像LangChain、LlamaIndex和VI LLaMA等项目，重复的集成工作让他们感到厌倦。

因此，我们决定推出一个干净、稳定的API，并且还提供了一个CLI（命令行界面）。作为开发者，CLI工具非常实用。我之前在Y Combinator的一次演讲中提到过，能够通过CLI下载模型、查看可用的模型规格、上下文窗口等信息是非常有用的。你可以轻松地开始部署和评估这些模型，所有操作都可以通过一个简单易用的CLI完成。因此，你可以通过pip或conda安装Llama Stack，然后你就拥有了一个Llama模型的工具库。

Llama Stack包括几个组件，其中一个是Agentic System API，包含了诸如内存、检索增强生成（RAG）等功能。我们还提供了“Shield”功能，如果你需要对多个模型进行安全编排，Shield可以帮助你从第一天就实现这一点。我们认为这非常重要，因为未来不仅仅是一个模型在运行，你会有很多不同的组件需要协同工作，因此需要一种高效的方式来编排它们，而不是每次都重新编写代码。

此外，还有一个Model Toolchain API部分，涉及如何与像PyVer这样的项目集成。稍后我会谈到Torch Tune和其他有趣的工具。比如，如果我想对这些模型进行持续的预训练，或者想量化模型并使用Torch AO，拥有一个一致的API和工作流会非常有帮助。

我们已经发布了第一个Llama Stack的版本，很多合作伙伴已经开始集成我们的API，包括戴尔、AWS、Groq和NVIDIA等。他们已经采用了Llama Stack并将我们的API集成到他们的平台中。这意味着在我们发布新功能时，他们可以在第一时间快速跟进，确保支持最新的特性。

PyTorch：生成式 AI 的基础

这是我最喜欢的部分之一，我要谈谈PyTorch。从1B到405B，所有的模型都依赖PyTorch实现。从模型蒸馏、部署到设备上的推理优化，再到预训练、持续训练和微调，所有这一切最终都依赖于PyTorch。它不仅是Llama模型的支柱，像OpenAI和Anthropic等公司也依赖PyTorch。因此，PyTorch实际上已经成为生成式AI发展的基础组件之一。

首先，我很喜欢 torch Titan 这个项目。这里有谁实际使用过 FSDP 呢？看来有几位，很好。torch chat 是一个相当新的项目，主要用于推理。torch compile 可能有几个人在用，它的作用是优化你的代码。然后是 ExecuTorch，我们很快就会发布另一篇关于 ExecuTorch 的博客文章。这是我们在设备端重点投入的项目。你们知道，在软件领域，这一直是一个非常复杂的问题，而我们对 ExecuTorch 的发展前景感到非常兴奋。

让我们谈谈微调。关于 TorchTune，我们经过深思熟虑，考虑了我们想要构建的微调库应该是什么样的。我们实际发现的情况是这样的——让我先看看时间，好的——当人们拿到像 LLaMA 这样的模型并想要微调它们时，他们通常会遇到这样的问题:他们会去 LLaMA recipes 仓库，然后抓取 Meta 公司一位叫 Hamid 的工程师创建的 Jupyter notebook，基本上就是复制粘贴一些代码。当时并没有一个真正出色的库，也没有一个干净、优雅的使用体验。因此，我们决定构建 TorchTune。我们是去年决定开始这个项目的，我认为到目前为止，它的反响非常好。

因此，你可以想象，TorchTune 允许你使用像 LoRA 这样的技术进行微调。本质上，它是一个真正的库，而不是一个框架。你可以将这些功能轻松地集成到你的工作流程中。TorchTune 是一个非常简洁且维护良好的项目。所以，如果你想要微调一个 LLaMA 模型，这可能是一个很好的起点。至于预训练，我不确定现在有多少人在做全面的预训练，可能不是很多，特别是在大规模上。但是，持续预训练(Continual Pre-training， CPT)我认为确实有相当多的人在尝试，他们在尝试获取现有模型并进行 CPT。

这是一个非常棒的库，而且实际上非常受欢迎。如果你想使用全量数据并行(FSDP)或流水线并行，这基本上是一个非常好的可组合库。它允许你扩展诸如持续预训练这样的任务，使用像 FP8 这样的低精度计算，它还支持异步检查点等功能。这些都是我们在 Meta 使用 TorchTitan 来扩展模型的主要方式。所以，如果你需要做类似的工作，你可以导入这个库。目前，我们主要支持在 NVIDIA GPU 上使用这些功能。

在推理方面，显然有许多相关项目。TorchChat 是其中之一，它基本上允许你在各种环境中运行推理。你可以在本地环境中运行，也可以在设备上运行，它与 ExecuTorch 无缝协作。我们有一些演示，展示了如何使用 45B 参数模型进行多节点推理或分布式推理。因此，它是一个非常versatile的推理库。

在编译器方面，当 PyTorch 2.0 发布时，我们重点关注了编译器。这是从 1.0 时代到 2.0 时代的一个重大努力和进步。我们继续推动编译器的发展，不仅是为了明显提升性能，还为了支持 PyTorch 周围更多样化的硬件生态系统。你可以看到我们支持多种后端，显然 TorchInductor 是 PyTorch 的原生后端，但我们也支持 NVIDIA、Intel 和其他一些后端。你还可以整合像 TorchAO 这样的工具。所以如果你想进行量化，然后整合你的编译通道，这些都可以很好地协同工作。

最后，让我们谈谈 ExecuTorch。我认为它是上周 Connect 发布会上的一个默默无闻的英雄。我们展示了一些非常酷的演示，这些演示也出现在 Mark 的主题演讲和 Chris Cox 的主题演讲中。ExecuTorch 实际上是我们所有移动演示的底层支持。结合 TorchAO 的量化技术，我们能够在 iOS 和 Android 设备上高效地运行这些模型。
而且，我们并不局限于这些设备。我们实际上还展示了一个混合现实演示，在一个耳机上运行了一个拥有 1B 参数的模型，这真的非常令人惊叹。虽然我认为这个演示最终没有公开，但我可能在未来某个时候能够发布一个视频。最令人印象深刻的是，我们仅用了大约两周的时间就构建了那个演示，这真的很酷。

好的，我们现在要加载一个模型。这是一个被量化到 4 位的 1B 参数模型。你可以看到我们只是在做一些基本的提示。这里没有什么特别的。比如说，"如何生火"。这里的关键是要注意生成速度有多快。
上周的会议上，我们请到了 ARM 公司的代表发言。你可以看到，我在这个主流 Android 设备上运行时，生成速度几乎达到了每秒 42 个 token 以上，这是相当惊人的。感受一下这个响应速度有多快。
实际上，ARM 公司的演示展示了大约每秒 250 个 token 的预填充速度，然后是每秒约 60 个 token 的生成速度。如果你考虑到这是一个 1B 参数的模型，它能产生连贯的输出，甚至可以在你的手机上执行一些代理任务，而且生成速度接近每秒 45 个 token，这真的非常令人印象深刻。

顺便说一下，所有这些都是开源的，你可以在 GitHub 上找到。你可以获取它，可以在你的手机上构建和运行。它是完全免费的 —— 模型在那里，所有的代码都在那里，应用程序也在那里。所以你可以直接获取它，玩玩看，进行微调，在你的手机上构建自己的本地代理。
就是这样，非常感谢大家。

Q&A

[观众提问] 1B 参数的模型真的很令人印象深刻。你能谈谈 AI 伴侣吗？我们看到 Meta 最近在 Ray-Ban 智能眼镜上发布了新产品。公司是否在朝着开发更智能的 AI 伴侣方向努力，让它能在本地设备上运行？
[Joe 回答] 是的，Ray-Ban Meta 智能眼镜确实非常受欢迎。我不知道这是运气还是 AI 和混合现实技术的融合恰逢其时。你看到 Orion 演示了吗？那真的很疯狂。你一定要去看看。Mark 上周在主题演讲中做了演示。
我认为这些技术正在以正确的方式融合。就像我说的，我们在 Quest 3 Pro 上运行了 1B 参数的模型。基本上是在混合现实环境中玩耍，多人可以看到同样的东西，能够用多种语言交谈，还可以进行生成和所有这些操作。我们还可以输入图像，因为我们在那里有不同的多模态模型，还有我们的大语言模型。
我认为这就是技术发展的方向。因为你想要低延迟，你想要隐私，你想要所有这些东西。显然，如果你戴着头显或眼镜，你不会想要往返云端，那样延迟会很长。如果你曾经使用过一些可穿戴设备，比如 Humane pin，你就会知道延迟有多长。所以显然，你不会想要那样的体验。

[观众提问] 我还有一个关于后训练的问题。你认为合成数据就是我们所需要的全部吗？在 L3 的后训练中，合成数据与真实数据的比例是多少？后训练中使用的合成数据比例是多少？
[Joe 回答] 后训练中并不是 100% 使用合成数据。我手头没有确切的百分比，但可能合成数据超过了一半。它可能比精心策划的数据更多，因为你可以更容易地扩展合成数据的规模。显然，我们为那些精心策划的、由人工注释的数据付出了很多。

[观众提问] 你能和我们分享一下关于 LLaMA 4 或 5 的预期吗？
[Joe 回答] 抱歉，我不能透露太多。我们已经暗示了一些东西。我想你可以想象一下技术发展的方向，比如在模态和语言方面。如果你关注 Meta AI 的发展，你会看到我们上周展示了语音和语音转换的功能。
你知道，我们是一家拥有数十亿用户的全球性公司，所以我们会支持更多的语言，提高推理能力。我认为这些显然是我们正在努力的方向。我们显然会继续推动规模的扩大，因为我们拥有大量的计算资源和雄心。我们想要构建世界上最好的模型。
所以，LLaMA 4、5 会很有趣。你知道，我不能透露任何秘密，但请继续关注我们，我们正在构建一些很酷的东西。

[观众提问] 我想我们刚刚听到了 OpenAI 的演讲，他们谈到了如何扩大推理时的计算量来获得更好的性能。你能谈谈 Meta 在这方面的approach吗？如果你们正在做类似的事情的话。
[Joe 回答] 我不能评论我们正在做的事情。但我可以指出我们过去做过的一些项目。你知道，推理时计算、搜索研究和强化学习，这些在推理时都很重要。我们过去做过一些工作，比如外交项目(Diplomacy project)，这是我参与过的项目之一。
我认为这方面有一些先前的工作。这种技术或方法的关键在于如何以更广泛有用的方式推广它。例如，在外交项目中，我们做的事情确实很惊人，但同时它在外交领域非常有用，一旦你离开这个领域，它就完全无法与代理交谈，就会崩溃。
所以，Meta 中仍然有很多从事这些工作的人，他们正在研究这些问题。你可以想象我们正在推进的一些领域。我们在所有这些领域都有专家。

[观众提问] 就像每个人都在问的问题一样，Meta 有没有计划发布类似于 OpenAI 的 o1 版本的东西，在那里我们可以看到推理过程和思维变化被暴露出来？
[Joe 回答] 我不能评论我们还没有发布的任何东西。但是推理确实是一个重要的推进领域，因为它是代理的基础。我们显然有一个专门关注推理的团队，所以我们会继续在这个方向上努力。

[观众提问] 关于最近发布的 Mamba 模型，你们做了任何基准测试或比较吗？我知道这两个模型的发布时间非常接近。
[Joe 回答] 实际上我还没有仔细看过这些模型。抱歉，我的意思是，我看到了一些基准测试结果。有很多基准测试结果在流传，但老实说，我还没有时间亲自试用它们。你说的是 AI 方面的模型，对吧？
从纸面上看，它们确实表现不错。我想我们可能会对它们进行基准测试，看看我们能从中学到什么。当然，我的意思是，甚至就在昨天，NVIDIA 也发布了一个多模态模型。所以是的，这些模型正在疯狂地涌现，这真是太棒了。
我个人认为，越多越好。越多的人和公司发布模型，我认为这是一件好事。但是的，我们会仔细研究它们的。

本文使用 Notion Nice 排版一键生成

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章，我们，下次再见。

点击关注和转发公众号保持你对AI优质内容的敏感

AI趋势全天候

以AI之名，探索未知。 🧠观察行业，关照本心，时常好奇，时常喜欢猫。随缘私信交流