Meta的全栈Al路线图洞察 | 基于Joe Spisak在 Pay Summit 2024上的演讲

文摘   2024-10-19 11:28   美国  

点击⬇️图标关注   抓住你的灵感💡瞬间


引言

  • Llama 生态系统的蓬勃发展,下载量超过4亿次,推动了 AI 领域创业公司和应用的浪潮。本次基于Joe Spisak在 Pay Summit 2024上的演讲整理,将探讨开源生成式 AI 的深远影响,并提供 Llama 生态系统路线图。


Llama 生态系统的采用和增长

  • Llama 模型的下载量持续增长,衍生模型超过6.5万个,显示出 Llama 生态系统的广泛应用。
  • Llama 模型已与各大云服务提供商合作,使其更易于开发者访问和使用。
  • Llama 模型的使用量持续增长,成本也大幅降低,使得该技术更加普及。

Llama 模型的发展历程

  • Llama 1 由 Facebook AI Research (FAIR) 团队于2023年2月发布,最初用于定理证明研究。
  • Llama 2 于2023年7月发布,获得了商业许可,推动了企业级应用和模型微调的爆发式增长。
  • Llama 2 也成为 Meta AI 智能助理的基础,该助理已应用于 Meta 旗下多个应用程序中。
  • Llama 3 于2024年4月发布,推理能力和模型性能显著提升。
  • Llama 3.1 将上下文窗口扩展至128k,并发布了405B 参数的模型,为合成数据和模型蒸馏提供了新的可能性。

Llama 3 的多模态能力

  • Llama 3 新增了视觉模型,支持图像和文本输入,使其成为真正的多模态模型。
  • 多模态模型的训练过程包括文本预训练、多模态预训练和模型对齐三个步骤。
  • 预训练使用了约60亿个图文对,微调使用了6亿个高质量的精选数据。
  • 合成数据生成技术在 Llama 3 的开发中发挥了关键作用,它可以生成高质量的图像和文本数据,用于模型微调和指令调整。

Llama 3 的应用场景

  • Llama 3 在视觉问答、文本理解、图表分析、手写方程式求解等方面展现出强大的能力。
  • Llama 3 在图像和文本基准测试中均取得了优异的成绩,证明了其多模态能力的有效性。

面向边缘设备的小型 Llama 模型

  • Meta 发布了1B 和 3B 参数的小型 Llama 模型,专为边缘设备和隐私敏感应用设计。
  • 小型模型的开发采用了剪枝和蒸馏技术,并利用大型模型生成的合成数据进行微调。
  • 小型模型在摘要、检索增强生成、写作辅助和代理应用等方面表现出色。

Llama Stack:构建 AI 代理的完整堆栈

  • Llama Stack 提供了稳定且易于使用的 API 和 CLI,简化了 Llama 模型的开发和部署流程。
  • Llama Stack 包含代理系统 API 和模型工具链 API,支持内存管理、安全防护、工具集成等功能。
  • 多家云服务提供商和硬件厂商已采用 Llama Stack,为开发者提供更一致的体验和更强大的功能。

PyTorch:生成式 AI 的基础

  • PyTorch 是 Llama 模型开发和部署的核心组件,从模型训练到设备端部署都离不开 PyTorch 的支持。
  • PyTorch 生态系统提供了丰富的工具和库,例如:
  • TorchTune 用于模型微调
  • TorchTitan 用于大规模模型训练
  • TorchChat 用于模型推理
  • TorchCompile 用于代码优化
  • ExecutTorch 用于设备端部署

结语

  • Llama 生态系统正在快速发展,为 AI 领域带来了前所未有的创新和机遇。
  • Meta 致力于推动 Llama 模型和 PyTorch 生态系统的开源和普及,让更多开发者能够利用这些技术构建下一代 AI 应用。

Llama 生态系统的采用和增长

今天我要谈谈Llama,去年我只讲了Llama模型本身,范围比较窄,但今天我想更多地讨论Llama周边的东西,以及我们正在构建的整个技术栈,一些PyTorch组件,还有它几乎已经成为操作系统的趋势,非常酷。

对于不认识我的人来说,可能有些标志不太容易看清,我是Meta的Joe。我已经在开源和AI领域工作了超过10年,特别是在PyTorch、Llama、研究以及Meta AI团队中工作。此外,我还参与了一些天使投资,并为Lightning、Anthropic等公司提供建议。

好了,关于我就说这么多。Llama,谁在用Llama?谁在使用这些模型?希望房间里的每个人都举手了。太好了,Llama的采用率继续疯狂增长,真是不可思议。我想我们展示了Hugging Face上的下载量,每次我联系Hugging Face的Omar,他都会告诉我下载量又增加了1000万、2000万。衍生品正在快速涌现,已有超过6.5万个衍生品。所以人们正在使用Llama,他们在其基础上进行构建,并发布他们的模型。

这非常疯狂。我们有很多合作伙伴,每次发布新版本时,我们都希望模型能尽可能靠近用户。所以我们与AWS、IBM、Snowflake等公司合作,几乎所有人都在努力将Llama模型和我们的技术尽量靠近开发者。这非常棒,我想我们每次发布都会有接近30个合作伙伴参与,虽然这需要很多工作,但对开发者非常有帮助。

我们还看到实际使用中的增长,这是来自我们一些云服务提供商合作伙伴的数据。你可以看到增长曲线几乎一直在上升,没有放缓的迹象,这非常有趣。

同时,我们也看到了成本的大幅下降。谁注意到了这种“价格战”?你可以看到OpenAI和Google的价格战。这对我们来说是件好事,因为我们希望这项技术能被大众化。当我们在7月发布45B时,我们的朋友Fireworks以每百万token 3美元的价格发布。你可以用一个可以进行微调的前沿级别模型,部署在任何地方,比如你自己的数据中心,价格仅为3美元,这真的非常便宜,技术也真正惠及了所有人。

Llama 模型的发展历程

谁了解Llama的历史?去年我稍微提到了一些。Llama 1,顺便说一句,这些图片都是我在Meta AI上通过提示词生成的,你们可以自己去meta.a体验。实际上,谁了解开发Llama 1的团队?有几个人举手了。它实际上是Meta AI团队中Fair部门的人开发的,他们平时在做定理证明,晚上则训练大语言模型。他们在2023年2月发布了Llama 1,基本上是用他们能够获得的计算资源拼凑而成的。接下来他们引领了潮流,后来的事情大家都知道了,他们在LLM领域做了一些非常酷的事情。

真正的爆发发生在Llama 2。那时我们推出了商业许可证,Llama真正进入了企业级市场并用于商业用途。发布的第一天,我们就看到大量的用户在对模型进行微调,发布聊天机器人,并在不同环境中运行这些模型,无论是本地还是个人智能体,Llama都开始迅速爆发。

Llama 3来了,这似乎是很久之前的事情了,实际上是今年4月发布的。我会称这次发布为一次预发布,模型的上下文窗口较小,但推理能力以及模型整体性能相较Llama 2有了显著提升。我们同时对Meta AI进行了更新,性能提升非常明显。

然后在Llama 3.1中,我们真正扩展了上下文窗口,达到了一个更具实用性的长度,达到128k tokens。最重要的是,我们发布了45B,这是一次非常惊人的旅程,发布这个模型的过程非常艰难,但其影响力非常大。大量的工作正在围绕合成数据和模型蒸馏进行。你可以在自己的环境中微调并部署这个前沿规模的模型,我们将其量化到FP8格式,可以在单个H100或A100节点上部署。它真正让基础模型的强大力量惠及所有人,虽然模型体积很大,但它确实让每个人都有机会使用。

Llama 3 的多模态能力

上周谁看到我们的公告了?时机正好,今天你们会了解到更多上周发布的一些细节。上周我们发布了Llama 3.2模型,每次发布对我们来说都是一项巨大的努力,模型的发布非常艰难,耗费了无数个周末,付出了血汗和泪水,和各个合作伙伴一起,做安全红队测试等等,最后终于发布了。这次我们发布了视觉模型和一些其他模型,这是Llama的首个多模态模型。我们发布了11B和90B,你可以将它们看作我们的8B和70B的类似物。我们还支持了适配器权重,这些模型本质上是兼容的,它们支持图像输入和文本输入。你可以通过图像提示词和文本提示词,结合多模态输入,得到一个响应。

在训练这些模型时,LLM 本身仍然是传统的基于文本的预训练方式。就像我们对405B和其他模型做的那样,我们进行了大规模的预训练。对于多模态模型,我们也进行了预训练,生成一组独立的权重,然后将这些权重对齐。我稍后会详细解释我们如何生成这些数据,并进行基于人类反馈的强化学习(RLHF),以引导模型的表现方式,让它处理提示词时符合我们的预期。

关于数据的处理,以前我们的预训练是无监督的,主要处理大量的图像和文本,尤其是在LLM的训练中。而在SFT(监督微调)阶段,我们使用了一些公开的学术数据集,还有一些合成数据,我稍后会谈到,还有我们花费大量资金进行的人工标注数据。这些标注数据实际上是使模型变得出色的主要原因,因此尽管成本高昂,但还是值得的。

在预训练过程中,我们使用了大约60亿对图像-文本对,生成了预训练的适配器权重,与LLM的基于文本的权重配对使用。在此基础上,我们有6亿对高质量的精心策划的数据用于后续训练。

如果你还记得我们7月的讨论,当时我们谈到为405B生成合成数据,这对我们来说是一个革命性应用,因为有了这个基础模型,我们就可以用它开发更小的模型,生成后续训练的数据,它非常多功能,成为了一个平台,能够支持多种用途。

顺便说一下,有些内容还没有公开发布,你们会看到这个大模型在生成数据。你可以想象,用一个类似405B规模的模型生成图像和问题,进行提示词扩展、提示词多样化的操作,然后对生成的内容进行打分,最终这些内容会进入我们的SFT数据集,最终用于我们的指令微调。

这种方式使我们能够在后续训练中以前所未有的方式扩展数据规模。否则,你将需要花费巨额资金来雇佣人工标注,生成不同类型的提示词,成本对大多数公司来说是无法承受的。通过这种方式,我们能够大规模扩展数据,效果也非常显著。

Llama 3 的应用场景

我们看到了许多有趣的应用场景。例如,视觉问答类任务中,你可以提供一个图像提示词,比如“我应该多吃沙拉”,然后模型会返回一份配料清单,甚至估算卡路里含量。

还有文本理解场景,比如Llama 3的论文,谁看过Llama 3的论文?整整92页,非常棒的论文。我们可以将论文的大部分内容输入到模型中,因为它有很长的上下文长度,模型可以根据上下文进行学习,并生成准确的回答。比如我们问它Llama 3的参数和token数量,它的回答是正确的:405B模型有15万亿个token。

另外,还有图表分析,这也非常有趣。尽管模型的推理能力还不总是准确,目前整个社区都在努力让视觉模型的推理能力更加完善,但你可以看到模型已经开始给出详细的描述,甚至能够分析图表的内容,正在变得越来越实用。

还有像手写方程式这样的应用。你可以想象一下,如果你的孩子在做家庭作业,而你想检查他们的解答是否正确,虽然对我们大多数人来说这些可能比较简单,因为很多人是工程师,但你可以给模型一张图片,询问它如何解答,模型会逐步给出解答过程。

当然,我们也进行了大量基准测试,结果令人满意。这个模型不仅在图像任务中表现出色,在文本任务中的表现也非常好。这个模型的独特之处在于,它不仅对图像进行了优化,也针对文本进行了优化。因为我们知道,很多人仍然会将它作为语言模型使用。因此,对于我们自己来说,文本到文本的任务仍然非常重要,同时我们也增加了图像推理的能力。

面向边缘设备的小型 Llama 模型

另外一件对我来说非常重要的事情是小模型。谁用过1B和3B的模型?有人用它们做过移动应用程序或安卓应用吗?你们可以去GitHub看看,我们为安卓和iOS构建了完整的应用程序。我最后会展示一个演示,大家可以看看。我对这些模型的速度感到非常惊讶,尤其是1B的速度,真的非常快。

我们开始思考哪些应用对我们自己,作为Meta公司来说,会是有用的。然后我们开始与社区讨论,老实说,我已经为此推动了超过一年的时间,一直在思考我们该构建什么、什么会真正有用。所以,最终我们在上周发布了这些小模型,我对它们的性能非常满意。

我们还使用了1B模型,对它进行了剪枝和量化,并以Llama Guard的形式发布了这个安全模型。它只有500MB,非常便宜。我们已经让它运行在移动设备上,它可以作为一个安全模型在手机上运行,与核心LLM一起工作,效果非常好,运行速度也非常快,令人印象深刻。

在思考这些模型时,我们非常明确地考虑了哪些用例是我们要解决的。构建一个1B的模型非常困难,要让它非常通用,具有很强的推理能力,同时在编程、数学等多个领域表现出色。我们查看了很多边缘设备的使用场景以及我们试图推动的体验,最终决定在后续训练中专注于少数几个领域,比如摘要生成、检索增强生成(RAG)、写作助手等。虽然这些应用听起来不太吸引人,但像提示词重写、生成增强提示词等实用功能真的非常重要,尤其是对于开发者和一些注重隐私的应用来说,能在本地完成而不需要通过云端处理,这一点非常有用。

因此,我们决定在后续训练中专注于这些少数应用场景,并且对结果非常满意。我稍后会展示一些基准测试结果。为了达到这个目标,我们采用了剪枝和蒸馏的双重路径。我们有一个很强的基础模型,如何利用它来创建一个小而高效的模型呢?我们从8B模型开始剪枝,剪掉了一些权重,然后我们开始从8B和70B模型进行蒸馏,并使用从405B生成的合成数据进行训练。


我有一张更详细的图表,但有点复杂,所以没有放上来。不过你可以大概了解我们的工作。在预训练阶段,我们进行了知识蒸馏,基本上通过8B和70B模型生成下一token的概率,然后这些概率传递到1B和3B模型中。在后续训练中,事情变得非常有趣,我们从405B生成了高质量的合成数据,并使用这些数据对1B和3B进行了SFT训练。这就是为什么拥有一个高质量的基础模型如此强大,结果也确实说明了这一点。

你可以看到这里的结果,展示了我们专注的领域。BFCL和Nexus是工具使用的基准测试,所以我们希望这些模型在本地智能体应用中表现出色。可以看到这里的数字非常突出。VAL是指令跟随的基准测试,在某些领域我们的小模型得分甚至超过了更大的模型。例如,在BFCL和Nexus基准中,1B和3B模型的表现超出了预期,尤其是在本地智能体应用中的表现非常突出。

虽然这些基准测试只反映了一部分情况,它们更多的是学术性的指标,但它们验证了我们的很多假设。

Llama Stack:构建 AI 代理的完整堆栈

稍微转换一下话题,上周我们还发布了一个叫做Llama Stack的工具。在过去一年中,我们学到了一件事,虽然Llama模型很重要,但它们只是整个拼图中的一部分,而不是全部。我们不断收到反馈,比如“每次你们发布新模型时,系统提示词会发生变化,提示词格式也会改变,甚至输出格式如JSON和Python也不一样。”此外,云提供商和平台合作伙伴也反映,他们每次都需要重新集成像LangChain、LlamaIndex和VI LLaMA等项目,重复的集成工作让他们感到厌倦。

因此,我们决定推出一个干净、稳定的API,并且还提供了一个CLI(命令行界面)。作为开发者,CLI工具非常实用。我之前在Y Combinator的一次演讲中提到过,能够通过CLI下载模型、查看可用的模型规格、上下文窗口等信息是非常有用的。你可以轻松地开始部署和评估这些模型,所有操作都可以通过一个简单易用的CLI完成。因此,你可以通过pip或conda安装Llama Stack,然后你就拥有了一个Llama模型的工具库。

Llama Stack包括几个组件,其中一个是Agentic System API,包含了诸如内存、检索增强生成(RAG)等功能。我们还提供了“Shield”功能,如果你需要对多个模型进行安全编排,Shield可以帮助你从第一天就实现这一点。我们认为这非常重要,因为未来不仅仅是一个模型在运行,你会有很多不同的组件需要协同工作,因此需要一种高效的方式来编排它们,而不是每次都重新编写代码。

此外,还有一个Model Toolchain API部分,涉及如何与像PyVer这样的项目集成。稍后我会谈到Torch Tune和其他有趣的工具。比如,如果我想对这些模型进行持续的预训练,或者想量化模型并使用Torch AO,拥有一个一致的API和工作流会非常有帮助。

我们已经发布了第一个Llama Stack的版本,很多合作伙伴已经开始集成我们的API,包括戴尔、AWS、Groq和NVIDIA等。他们已经采用了Llama Stack并将我们的API集成到他们的平台中。这意味着在我们发布新功能时,他们可以在第一时间快速跟进,确保支持最新的特性。

PyTorch:生成式 AI 的基础

这是我最喜欢的部分之一,我要谈谈PyTorch。从1B到405B,所有的模型都依赖PyTorch实现。从模型蒸馏、部署到设备上的推理优化,再到预训练、持续训练和微调,所有这一切最终都依赖于PyTorch。它不仅是Llama模型的支柱,像OpenAI和Anthropic等公司也依赖PyTorch。因此,PyTorch实际上已经成为生成式AI发展的基础组件之一。

首先,我很喜欢 torch Titan 这个项目。这里有谁实际使用过 FSDP 呢?看来有几位,很好。torch chat 是一个相当新的项目,主要用于推理。torch compile 可能有几个人在用,它的作用是优化你的代码。然后是 ExecuTorch,我们很快就会发布另一篇关于 ExecuTorch 的博客文章。这是我们在设备端重点投入的项目。你们知道,在软件领域,这一直是一个非常复杂的问题,而我们对 ExecuTorch 的发展前景感到非常兴奋。

让我们谈谈微调。关于 TorchTune,我们经过深思熟虑,考虑了我们想要构建的微调库应该是什么样的。我们实际发现的情况是这样的——让我先看看时间,好的——当人们拿到像 LLaMA 这样的模型并想要微调它们时,他们通常会遇到这样的问题:他们会去 LLaMA recipes 仓库,然后抓取 Meta 公司一位叫 Hamid 的工程师创建的 Jupyter notebook,基本上就是复制粘贴一些代码。当时并没有一个真正出色的库,也没有一个干净、优雅的使用体验。因此,我们决定构建 TorchTune。我们是去年决定开始这个项目的,我认为到目前为止,它的反响非常好。


因此,你可以想象,TorchTune 允许你使用像 LoRA 这样的技术进行微调。本质上,它是一个真正的库,而不是一个框架。你可以将这些功能轻松地集成到你的工作流程中。TorchTune 是一个非常简洁且维护良好的项目。所以,如果你想要微调一个 LLaMA 模型,这可能是一个很好的起点。至于预训练,我不确定现在有多少人在做全面的预训练,可能不是很多,特别是在大规模上。但是,持续预训练(Continual Pre-training, CPT)我认为确实有相当多的人在尝试,他们在尝试获取现有模型并进行 CPT。

这是一个非常棒的库,而且实际上非常受欢迎。如果你想使用全量数据并行(FSDP)或流水线并行,这基本上是一个非常好的可组合库。它允许你扩展诸如持续预训练这样的任务,使用像 FP8 这样的低精度计算,它还支持异步检查点等功能。这些都是我们在 Meta 使用 TorchTitan 来扩展模型的主要方式。所以,如果你需要做类似的工作,你可以导入这个库。目前,我们主要支持在 NVIDIA GPU 上使用这些功能。

在推理方面,显然有许多相关项目。TorchChat 是其中之一,它基本上允许你在各种环境中运行推理。你可以在本地环境中运行,也可以在设备上运行,它与 ExecuTorch 无缝协作。我们有一些演示,展示了如何使用 45B 参数模型进行多节点推理或分布式推理。因此,它是一个非常versatile的推理库。

在编译器方面,当 PyTorch 2.0 发布时,我们重点关注了编译器。这是从 1.0 时代到 2.0 时代的一个重大努力和进步。我们继续推动编译器的发展,不仅是为了明显提升性能,还为了支持 PyTorch 周围更多样化的硬件生态系统。你可以看到我们支持多种后端,显然 TorchInductor 是 PyTorch 的原生后端,但我们也支持 NVIDIA、Intel 和其他一些后端。你还可以整合像 TorchAO 这样的工具。所以如果你想进行量化,然后整合你的编译通道,这些都可以很好地协同工作。

最后,让我们谈谈 ExecuTorch。我认为它是上周 Connect 发布会上的一个默默无闻的英雄。我们展示了一些非常酷的演示,这些演示也出现在 Mark 的主题演讲和 Chris Cox 的主题演讲中。ExecuTorch 实际上是我们所有移动演示的底层支持。结合 TorchAO 的量化技术,我们能够在 iOS 和 Android 设备上高效地运行这些模型。
而且,我们并不局限于这些设备。我们实际上还展示了一个混合现实演示,在一个耳机上运行了一个拥有 1B 参数的模型,这真的非常令人惊叹。虽然我认为这个演示最终没有公开,但我可能在未来某个时候能够发布一个视频。最令人印象深刻的是,我们仅用了大约两周的时间就构建了那个演示,这真的很酷。

好的,我们现在要加载一个模型。这是一个被量化到 4 位的 1B 参数模型。你可以看到我们只是在做一些基本的提示。这里没有什么特别的。比如说,"如何生火"。这里的关键是要注意生成速度有多快。
上周的会议上,我们请到了 ARM 公司的代表发言。你可以看到,我在这个主流 Android 设备上运行时,生成速度几乎达到了每秒 42 个 token 以上,这是相当惊人的。感受一下这个响应速度有多快。
实际上,ARM 公司的演示展示了大约每秒 250 个 token 的预填充速度,然后是每秒约 60 个 token 的生成速度。如果你考虑到这是一个 1B 参数的模型,它能产生连贯的输出,甚至可以在你的手机上执行一些代理任务,而且生成速度接近每秒 45 个 token,这真的非常令人印象深刻。

顺便说一下,所有这些都是开源的,你可以在 GitHub 上找到。你可以获取它,可以在你的手机上构建和运行。它是完全免费的 —— 模型在那里,所有的代码都在那里,应用程序也在那里。所以你可以直接获取它,玩玩看,进行微调,在你的手机上构建自己的本地代理。
就是这样,非常感谢大家。

Q&A

[观众提问] 1B 参数的模型真的很令人印象深刻。你能谈谈 AI 伴侣吗?我们看到 Meta 最近在 Ray-Ban 智能眼镜上发布了新产品。公司是否在朝着开发更智能的 AI 伴侣方向努力,让它能在本地设备上运行?
[Joe 回答] 是的,Ray-Ban Meta 智能眼镜确实非常受欢迎。我不知道这是运气还是 AI 和混合现实技术的融合恰逢其时。你看到 Orion 演示了吗?那真的很疯狂。你一定要去看看。Mark 上周在主题演讲中做了演示。
我认为这些技术正在以正确的方式融合。就像我说的,我们在 Quest 3 Pro 上运行了 1B 参数的模型。基本上是在混合现实环境中玩耍,多人可以看到同样的东西,能够用多种语言交谈,还可以进行生成和所有这些操作。我们还可以输入图像,因为我们在那里有不同的多模态模型,还有我们的大语言模型。
我认为这就是技术发展的方向。因为你想要低延迟,你想要隐私,你想要所有这些东西。显然,如果你戴着头显或眼镜,你不会想要往返云端,那样延迟会很长。如果你曾经使用过一些可穿戴设备,比如 Humane pin,你就会知道延迟有多长。所以显然,你不会想要那样的体验。

[观众提问] 我还有一个关于后训练的问题。你认为合成数据就是我们所需要的全部吗?在 L3 的后训练中,合成数据与真实数据的比例是多少?后训练中使用的合成数据比例是多少?
[Joe 回答] 后训练中并不是 100% 使用合成数据。我手头没有确切的百分比,但可能合成数据超过了一半。它可能比精心策划的数据更多,因为你可以更容易地扩展合成数据的规模。显然,我们为那些精心策划的、由人工注释的数据付出了很多。

[观众提问] 你能和我们分享一下关于 LLaMA 4 或 5 的预期吗?
[Joe 回答] 抱歉,我不能透露太多。我们已经暗示了一些东西。我想你可以想象一下技术发展的方向,比如在模态和语言方面。如果你关注 Meta AI 的发展,你会看到我们上周展示了语音和语音转换的功能。
你知道,我们是一家拥有数十亿用户的全球性公司,所以我们会支持更多的语言,提高推理能力。我认为这些显然是我们正在努力的方向。我们显然会继续推动规模的扩大,因为我们拥有大量的计算资源和雄心。我们想要构建世界上最好的模型。
所以,LLaMA 4、5 会很有趣。你知道,我不能透露任何秘密,但请继续关注我们,我们正在构建一些很酷的东西。

[观众提问] 我想我们刚刚听到了 OpenAI 的演讲,他们谈到了如何扩大推理时的计算量来获得更好的性能。你能谈谈 Meta 在这方面的approach吗?如果你们正在做类似的事情的话。
[Joe 回答] 我不能评论我们正在做的事情。但我可以指出我们过去做过的一些项目。你知道,推理时计算、搜索研究和强化学习,这些在推理时都很重要。我们过去做过一些工作,比如外交项目(Diplomacy project),这是我参与过的项目之一。
我认为这方面有一些先前的工作。这种技术或方法的关键在于如何以更广泛有用的方式推广它。例如,在外交项目中,我们做的事情确实很惊人,但同时它在外交领域非常有用,一旦你离开这个领域,它就完全无法与代理交谈,就会崩溃。
所以,Meta 中仍然有很多从事这些工作的人,他们正在研究这些问题。你可以想象我们正在推进的一些领域。我们在所有这些领域都有专家。

[观众提问] 就像每个人都在问的问题一样,Meta 有没有计划发布类似于 OpenAI 的 o1 版本的东西,在那里我们可以看到推理过程和思维变化被暴露出来?
[Joe 回答] 我不能评论我们还没有发布的任何东西。但是推理确实是一个重要的推进领域,因为它是代理的基础。我们显然有一个专门关注推理的团队,所以我们会继续在这个方向上努力。

[观众提问] 关于最近发布的 Mamba 模型,你们做了任何基准测试或比较吗?我知道这两个模型的发布时间非常接近。
[Joe 回答] 实际上我还没有仔细看过这些模型。抱歉,我的意思是,我看到了一些基准测试结果。有很多基准测试结果在流传,但老实说,我还没有时间亲自试用它们。你说的是 AI 方面的模型,对吧?
从纸面上看,它们确实表现不错。我想我们可能会对它们进行基准测试,看看我们能从中学到什么。当然,我的意思是,甚至就在昨天,NVIDIA 也发布了一个多模态模型。所以是的,这些模型正在疯狂地涌现,这真是太棒了。
我个人认为,越多越好。越多的人和公司发布模型,我认为这是一件好事。但是的,我们会仔细研究它们的。

本文使用 Notion Nice 排版一键生成




以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。



 点击关注转发公众号     保持你对AI优质内容的敏感





AI趋势全天候
以AI之名,探索未知。 🧠观察行业,关照本心,时常好奇,时常喜欢猫。随缘私信交流
 最新文章