喝点VC｜红杉美国对话Meta：模型确实在商品化，价值则在其他地方；推理能力至关重要，但我们需要找到应用场景来定义什么是推理能力

文摘 2024-09-07 16:50 北京

图片来源：Unsplash

Z Highlights

开源不仅提升了安全性，还能促进更快的创新和改进。透明性使得社区能够迅速响应并解决问题，这有助于提升整体质量和可靠性。我们希望通过开源Llama，能让更多的人使用和改进它，从而推动整个生态系统的进步。开源为我们带来的不仅是社区的反馈和参与，还有更强的创新动力和更广泛的应用场景。

模型确实在商品化，价值则在其他地方。当我审视Meta和我们的产品、我们正在构建的东西，坦白说，对我们来说，价值就在这里。Meta AI、我们的Agent，以及我们将要整合到Instagram、WhatsApp和所有终端产品中的技术，这些才是我们真正实现货币化、创造实际价值的地方。

解锁模型推理能力的关键因素是数据，尤其是代码和有监督数据。此外，我们还需要找到应用场景，以帮助我们定义推理能力。一旦找到那些关键应用场景，我们就能更明确地知道应该在其他方面集中精力，例如针对特定的目标进行优化。这也涉及到评测，即如何定义评测标准。

Training Data：大家好，欢迎来到Training Data。今天，我们很高兴邀请到Meta生成式AI产品总监Joe Spisak，他负责领导Llama项目和第三方生态系统的工作。Joe在过去十年里一直在AI领域工作，曾在PyTorch担任产品负责人，并参与了涵盖蛋白质折叠和AI数学等多个项目，其中许多项目已从Meta独立出来成为初创公司。Llama 3.1 405B发布刚刚两天，我们与Joe进行对话，很期待听到他对以下问题的看法：开源生态系统的未来方向？即使在前沿领域，模型会商品化吗？模型开发是否越来越像软件开发？以及在智能体、推理、小模型、数据等方面的下一步是什么？

Llama 3.1 405B有哪些特别之处？

Training Data：Joe，非常感谢你今天的到来。我们很高兴能邀请到你。Llama 3.1 405B刚刚在两天前发布，这是对整个生态系统的巨大贡献。我们很想了解一下你对405B的看法，尤其是与其他最先进的模型相比，405B有哪些特别独特的功能？

Joe Spisak：非常感谢你们的邀请。这次交流非常有趣。我在疫情前曾经在东南亚地区参加过这样的播客，所以能够在同一个房间里聊这些有趣的话题真的很开心。我们和Meta团队都非常兴奋。这是我们很多人花了很长时间的努力成果。我们在四月份推出了Llama 3的“开胃菜”，我当时还在想，人们真的会对这些模型如此兴奋吗？结果反响非常热烈，大家都非常激动，但他们其实并不知道真正的重磅还在后面。所以我们也一直保密，准备这次的发布。405B是个“怪物”，是个非常出色的模型。

我认为我们从405B中学到的最大一点是，它就像是其他模型的一个巨大的导师。我们一直以来都有这样的计划，因为当你有一个大模型时，你可以用它来改进小模型，或者进行模型蒸馏。正是通过这种方式，8B和70B才成为了现在这么出色的模型。

我指的是在功能方面，我们倾听社区的反馈，当然也听取我们自己产品团队的意见，因为我们需要为Meta开发产品。长上下文是大家最想要的功能之一。实际上，我们内部的上下文长度比发布的要长得多。我们看到各种用例开始累积，比如多语言支持。我们是一家全球公司，所以我们发布了更多语言支持，还有很多语言即将推出，因为Meta在全球拥有数十亿用户，遍布数百个国家。我认为这些功能对我们来说是基本要求，但在这些模型上，它们得到了非常好的实现。

我们花了很多时间在不同语言的后训练和改进上，特别是在安全性方面。这些质量都非常高。所以我们不仅仅是预训练大量数据然后说“看，我们是多语言的”。实际上，我们在后训练阶段和监督微调阶段做了大量工作，并进行了很多安全性方面的工作。

最让我兴奋的一些功能之一是工具的使用。我认为模型的零设置工具使用将会让共同体感到非常惊讶。我们可以展示一些例子，比如调用Wolfram、Brave搜索或Google搜索，它们都运行得非常好。零设置工具使用将会是一个游戏规则的改变者。能够调用代码解释器并实际运行代码，或者构建你自己的插件用于检索增强生成（RAG）等功能，并且让这些功能达到最先进的水平，我认为这将是一个非常大的改变。

我们发布405B模型本身，并改变了我们的许可协议，使得大家可以实际使用我们的数据，这是一个重要的举措。我们就此进行了很多讨论，并与Mark开了很多会议。最终，我们找到了一个解决方案，这也是社区长期以来的痛点。之前的闭源模型限制了使用输出的方式，或者有时候使用这些输出可能有些不规范。而现在，我们实际上在鼓励大家使用这些数据。

如何做出开源与闭源的决策？

Training Data：我相信这个决定一定很艰难。能否请你详细讲述一下你们在考虑并最终做出开放许可决定的过程中所做的工作？

Joe Spisak：是的，许可问题是一个非常大的话题，可以单独做一期播客来讨论。我不想深入讲，但确实可以讨论很久。我认为我们首先想要解锁一些新的功能，让405B和我们的Llama 3.1模型能提供新的能力。我们关注了共同体中人们真正感兴趣的东西，不仅是企业和产品方面的，还有研究。我们有一个研究团队，与学术界合作，我们经常与他们交流，比如斯坦福的Percy经常联系我，问我们什么时候发布，能否使用这些模型。我让Percy保持耐心，但我们听到了他们的需求，知道他们想要什么。

最终，我们希望Llama能被广泛采用，全球都在使用和构建它。我认为Mark在他的信中也提到了要成为新的标准或规范。要做到这一点，你必须解除各种不同的用例障碍，认真看待社区的需求，确保没有人为的障碍。这就是讨论的重点。

除此之外，我们还开始与Nvidia和AWS等合作伙伴合作，他们开始构建蒸馏配方和合成数据生成服务。这非常酷，因为你可以利用这些服务创建专业化模型，我们知道这些数据有多好，因为我们在小模型中使用过。它们的确提升了我们的模型性能。

Training Data：我想再深入探讨一下开源的问题。我读了扎克伯格的宣言，觉得很棒。但我还是试图弄清楚，Meta从中得到了什么？这是一个巨大的投资，开源在某种程度上意味着你们把很多钱放在桌面上，因为你们现在把一个最先进的模型免费提供给大家。那么，这是一种进攻性举措吗？还是一种防御性举措？Meta从中得到了什么？

Joe Spisak：我们的商业模式并不依赖于直接通过这个模型赚钱。我们并不出售云服务，从未成为云服务公司。我们一直与合作伙伴生态系统合作，比如我在帮助领导PyTorch时，我们从未构建过服务，虽然某种程度上我们可能可以。从PyTorch开始，我们将其视为一种通用语言，连接到一个高熵区域——这是一个有点奇怪的说法，但确实有很多创新发生。我们构建了一座桥梁，能够利用所有这些创新。而做到这一点的方式就是开放，让全世界都能在你的平台上构建东西。这种精神也延续到了Llama。

PyTorch是我们拉动社区和生态系统的巨大方式。当时我们专注于PyTorch时，计算机视觉和卷积神经网络（CNN）是热门领域。人们不断创造新的架构，编写代码并在PyTorch上发布，我们会内部评测。这些架构和模型的改进速度非常快，尤其是在我们发布了一些数据集后，我们每周、每月都能看到明显的改进。

Llama在这方面非常相似。当学术界和公司开始测试这些模型，尝试破解它们时，我们希望他们对我们的模型这样做，这样我们可以改进。我认为这是一个很重要的原因。这有点像“愿望成真”——我们希望大家挑战我们的模型，以便我们能持续改进。

当然，就像Linux一样。Linux是开源的，内核也是开源的，人们可以更快地发现和修复漏洞，使其更加安全。这对我们帮助很大。

开源不仅提升了安全性，还能促进更快的创新和改进。透明性使得社区能够迅速响应并解决问题，这有助于提升整体质量和可靠性。我们希望通过开源Llama，能让更多的人使用和改进它，从而推动整个生态系统的进步。开源为我们带来的不仅是社区的反馈和参与，还有更强的创新动力和更广泛的应用场景。

我认为，还有一个角度是，我们不希望这一切变成一个完全封闭的环境。就像今天的Linux和Windows，两者都有存在的空间，对吧？封闭和开放都有存在的必要，人们根据自己的需求和应用场景来选择。我认为未来应该是一个开放模型和封闭模型共存的世界，这完全可以接受。

Training Data：但是，反对开放源代码的主要理由是什么？

Joe Spisak：我们确实讨论过竞争方面的担忧，比如是否真的要把我们的技术公之于众。但我们对此的担忧较少，因为我们发展得非常快。如果你回顾一下，我已经在Meta工作了接近六七年了，在过去的一年左右，我们做了很多事情，比如我们去年12月在Meta Connect发布了Purple Llama，最近发布了Llama 3.1。此前，我们在7月发布了Llama 2，而Llama 1是在2月份发布的。回顾一下我们的创新速度，我们的团队和公司现在以非常快的速度推出新产品和新技术，所以我对此并不太担心。我认为对于这个问题我们无需过多担心。

模型是否会在最前沿领域变得商品化？

Training Data：我很想了解一下你对更广泛的生态系统的个人看法。我认为很多人关心的问题集中在这些模型的价值会发生什么变化，尤其是当Meta开源Llama 3.1这样最前沿水平上的模型时，以及OpenAI推出的GPT-4o mini。你认为这些模型是否会在最前沿领域变得商品化？

Joe Spisak：这是一个很好的问题。我的观点是，如果你看看最近两周的情况，GPT-4o mini确实是一个非常优秀的模型——输入每百万个token的成本大约是15美分，输出则是60美分，因此运行成本非常低。但它也是一个出色的模型，他们在蒸馏和优化上做得非常好，能够在保持高性能的同时做到非常便宜。因此，我认为Sam确实在推动这一点。如果你看看我们刚刚推出的模型和它所蒸馏/剪枝出的其他模型，这些模型在整个领域中表现都非常出色。

我确实认为模型正在迅速变得像商品一样普遍。我觉得数据的前沿仍然存在一些限制，我们可以从互联网收集数据，也可以许可数据，但总会有一些限制的前沿。回到我们的讨论，我们逐渐明白了数据和规模的重要性，计算能力是否足够。虽然可能还不完全够，但算力和数据变成了关键因素。如果你同时拥有足够的两者，你可以在没有其他东西的情况下获得一个接近最前沿的模型。这就是我们所看到的。因此，我认为模型确实在商品化，价值则在其他地方。

当我审视Meta和我们的产品、我们正在构建的东西，坦白说，对我们来说，价值就在这里。就是Meta AI、我们的Agent，以及我们将要整合到Instagram、WhatsApp和所有终端产品中的技术，这些才是我们真正实现货币化、创造实际价值的地方。模型本身，我认为我们肯定会继续创新，新的模型样式、新的语言和新的能力。这就是研究的意义所在，推动前沿领域的出现新能力，然后我们可以将这些应用到产品中。但模型确实在朝着那个方向发展。

图片来源：Unsplash

给初创公司的建议：在前沿模型的基础上构建应用

Training Data：如果情况确实如此，那些已经拥有大量分发渠道和出色应用的现有公司能够直接采用最前沿的模型，那么你会给那些试图进入市场的新兴初创公司什么建议呢？这些初创公司可能会尝试构建自己的模型，或者使用其他最前沿的模型，并在其基础上构建应用。

Joe Spisak：确实，一些公司可能正在进行预训练基础模型的构建，这是一项非常昂贵的工作——Llama 3的成本很高，而Llama 4的成本还会更高。因此，如果我是一个初创公司，我会觉得直接进行预训练可能不是最明智的选择。Llama模型作为基础非常出色，可以作为构建的基石。

如果我现在是创始人，我会毫不犹豫地采用开源模型。这将迫使我考虑组织的工程复杂性，比如需要配置LLM操作、数据微调、构建RAG（检索增强生成）和API等。虽然有很多API可以帮助完成这些任务，但最终，你还是希望拥有控制权。你的优势在于数据、与用户的互动，以及可能在某个时点将这些模型部署到设备上进行混合交互的能力。你可能希望在设备上运行一些较简单的查询，实现低延迟的用户交互，而将更复杂的查询和交互放在云端处理。

开源方法为你提供了这种灵活性，允许你直接修改模型。你拥有模型权重，可以自己进行权重的蒸馏。未来会有蒸馏服务允许你将权重压缩成更小的模型，这真的很棒。我们现在刚刚开始看到这种情况的苗头。因此，在我看来，控制权很重要，拥有权重的所有权也很重要。

有很多API服务可以进行模型的微调，你可以提供自己的数据来进行微调，并使用一种叫做低资源适应（LoRA）的方法。但不幸的是，你实际上无法访问微调后的权重，你实际上被迫使用他们的推理服务。就是说，你提供了数据，却无法访问从这些数据中生成的实际知识产权（IP），而现在你不得不依赖他们的推理服务，这并不是一个理想的交易。因此，我认为开源方法带来了固有的自由，而这种方法则没有。

前沿领域是否正在趋同？

Training Data：你怎么看待在Llama 3.1发布一天后发布的Mistral Large？更广泛地说，对于前沿领域的所有人来说，大家是在方案、技术、计算规模和数据等前沿领域趋于相似，还是说你们有一些非常不同的做法？

Joe Spisak：首先，我要说的是，Mistral团队非常出色。这是我以前的团队之一，他们在人工智能和数学方面做了很多改进。Yom、Tim和Marianne，他们的团队真的是很了不起。

Training Data：Joe昨晚刚刚和我们进行一些有趣的谈话。

Joe Spisak：这是我曾经合作过的最拼搏的团队之一。团队中的人几乎没有时间休息，他们基本上白天都在忙碌。

Training Data：他们现在或许没那么拼命了。

Joe Spisak：现在情况可能有所缓解，但过去他们白天推动AI和定理证明的前沿技术，晚上则拼尽全力抓取计算资源来训练Llama 1。几年前，我们在FAIR（ZP注：FAIR，Meta的Fundamental AI Research基础人工智能研究团队）的时候已经开始构建大型语言模型了。团队非常有雄心壮志，晚上加班加点地工作，这就是Llama 1的起源。

这个团队确实很了不起，他们的工作也非常出色。不过，他们面临的挑战是，虽然他们也在开源模型，但同时也需要盈利。例如，像GPT-4o mini这样的模型并没有帮他们什么忙。这也是为什么他们更改了许可证，采用了“仅限研究”的许可。这种做法有其合理性。因为他们在开源模型时，他们自己的生态系统在很多方面与他们竞争。他们发布了一个模型，托管它，然后有了诸如Together、Fireworks、Lepton等公司提供有时更低成本的每百万token服务。所以现在的市场环境确实非常困难。

关于Large 2，我认为从纸面上看这是一个很好的模型。虽然我们还没有进行内部评测和审查。如果你参考一些人工分析，它的质量似乎略低于70B模型，但这只是基于一系列混合基准的综合评价。总的来说，它在纸面上的表现非常好，我们会对其进行评测。

我认为，对我来说，模型越多越好，越多的公司参与其中，情况就会越好。我们不会是唯一的一个，这种竞争和多样性是有益的。更广泛地说，在人工智能领域，你每天都会期待一些新的发布或突破性进展，这就是从事这一领域的乐趣所在。

Training Data：你认为前沿领域的这些团队都可比吗？也就是说，大家是否都在追求类似的策略？

Joe Spisak：这是一个很好的问题。如果你阅读Llama 3的论文，这篇论文大约有96页，你会发现其中有大量的引用、分享以及贡献者和核心贡献者。可以说，这是一篇非常详细的论文。Lawrence和Angela在团队中主导了这篇论文的撰写。我认为，开发模型相比撰写论文来说相对容易，撰写论文是非常艰巨的工作，撰写这篇论文花费了很多精力。

如果你看Llama 3，确实发生了很多创新，但我们也没有承担太多的研究风险。我们在Llama 3，特别是在405B上，主要的工作确实是推动规模。我们使用了群体查询注意力（GQA），这改善了推理时间，并帮助解决了平方级注意力计算的挑战。我们在超过15万亿个token上进行了训练，使用了后训练技术，利用合成数据，这显著提升了模型的性能。我们在训练过程中使用了超过16000个GPU，这在之前我们从未做过。做到这一点非常困难，因为GPU会出现故障，这绝非易事。大家都说“我要用10万个GPU来训练”，这确实是非常有挑战性的。

你最好有一个非常出色的基础设施团队，一个非常强大的MLS团队，你必须准备好在这个层次上进行创新，因为这不是小事。大家说起来简单，但实际上非常复杂。我觉得Llama 3在某种程度上和GPT-3的论文非常相似。如果你跟Tom Brown谈谈，他现在在Anthropic；他是那篇论文的第一作者，这有其原因，因为很多创新实际上都集中在规模上。这实际上是如何将一种架构推向极限的问题，涉及到在MLS层和基础层上大量的工作，比如如何扩展算法。这也是我们在Llama 3和Llama 3.1中的思维方式。

我们内部当然有一个很棒的研究团队和FAIR，我们的组织里有很多研究，我们在探索各种不同的架构、MoE等。因此，Llama的未来可能会是什么样子还不好说，我们有很多候选架构，并在进行研究。这是一种权衡，研究中涉及到的风险和可能的回报的权衡，以及潜在的改进上限与选择相对已知的东西并推动其规模的提高之间的权衡。最终，这就变成了一个权衡的问题。

图片来源：Unsplash

模型开发是否越来越像软件开发？

Training Data：我认为这是一个非常有趣的观点。我确实认为，这也使得Salama和Meta在策略上相当独特。你昨天使用的词语让我印象深刻，模型开发是否越来越像软件开发？我很好奇，你怎么看这个问题。

与许多其他实验室专注于推动更多研究不同，你们一直专注于执行已知有效的策略。你认为这种做法是否会持续下去，尤其是在扩展Llama到4、5、6、7、8版本时？另外，你认为其他研究实验室和生态系统中的一些初创公司会如何反应？他们会转向你们的策略并且越来越多地应用这种策略吗？

Joe Spisak：这是一个非常好的问题。我们当然不可能拥有所有答案，但现在我们确实看到事情朝中间某个位置发展，我们会继续推动执行，会继续推出新的模型。因为我们希望我们的产品不断迭代和改进，同时我们也希望AI不断进步。因此，这里确实存在一个类似于软件工程的类比：比如你可以想象Llama的训练，就像有新功能和新能力加入到这个“火车”中，然后我们发布一个新模型。当你开始将能力模块化时，这就变得更容易了，比如我们现在在做的安全方面，你在发布中看到了，我们发布了一个Prompt Guard（ZP注：“Purple Llama”项目的一部分，这个组件用于防止LLM集成的应用程序受到恶意提示的侵害。）和一个新的Llama Guard（ZP注：“Purple Llama”项目的一部分，主要用于检测各种常见类型的违规内容。），你可以在这些组件上进行外部迭代。这非常好。

显然，核心模型要复杂得多。我认为，我们会开始在研究方面有所推进，因为我认为架构会不断演变。例如，AI21 Labs 在他们的Jamba和Mamba上所做的事情，大家都认为Mamba是一个有潜力的新架构。

我认为有趣的是，想要真正理解架构的能力，就需要推向更大的规模。而现在生态系统中缺乏的正是这一点。如果你看学术界，那里的确有很多非常聪明的人，但他们缺乏大量的计算资源。这是一个问题，因为他们有很多好的想法，但没有办法在所需的水平上真正执行它们，从而真正理解它们能否扩展。就像Jamba的论文和模型非常有趣，基准测试结果也很好，但他们没有将其规模扩展到超过10亿参数。当我们将其训练到100亿参数时会发生什么？是否还能看到这些改进？至少在这些实验室之外，没有人真正知道答案。所以我认为这是一个挑战。所以我认为，对我来说，我们将进入一个混合空间，我们肯定会在架构上推进，同时拥有一个非常聪明且成就斐然的研究团队。

但我们也会执行下去，我认为那时我们会找到一种方法。我们会将其推向极限，并且会继续发布更多的模型。但与此并行，我们必须在架构上进行推进。我认为这很有意义，因为对于下一次突破来说，在某个时候，你必须触及一种理论上的极限，然后需要进化架构。所以我看到我们会处于中间的状态，并且显然我们在执行方面非常出色。

我们在执行方面非常出色，但我们也从事研究，我们需要将这两者结合起来。这是有道理的，因为研究和产品是非常不同的。产品应该是相当确定性的，而研究本质上是非确定性的。研究是否会奏效？我不知道，这是一场很大的赌注。如果失败了，那就是研究——它应该有一定的可能性完全失败。我们可能需要换个方向，但这就是研究的本质。

哪些关键因素将促进模型解锁“推理”能力？

Training Data：我很好奇现在很多模型研究正在进行的一个分支——Agentic reasoning（ZP注：推理的能力，指的是一个AI系统能够自主感知其环境，推理目标，制定计划，并采取行动以实现期望的结果。）。我认为你们在推理方面取得了非常好的成果。我很好奇，从一个非常基本的层面上，你们如何定义推理？然后，你们是否看到推理在预训练期间随着规模的增加而出现？还是在后期训练中？这时在推理方面还有很多工作要做吗？

Joe Spisak：推理确实是一个复杂的领域。你可以说，推理涉及多步骤的过程，比如那些半戏谑性的例子，例如“Bob在开公交车，他选择了……”等等。如果你查看本地的Llama，你会看到很多类似的例子。这些例子强迫模型采取多步骤的反应，进行逻辑思考。推理的改进同时发生在训练后的调整和预训练阶段。

我们现在学到的东西，虽然现在看来显而易见，但确实是过去一年左右才被广泛认识到的，就是大量的代码数据在预训练语料中确实能够提高推理能力。代码本身是非常逻辑性的，逐步进行的，因此，如果你在预训练中加入大量代码，你的模型会推理得更好。当然，我们也会在后训练阶段改善推理，比如通过SFT（ZP注：SFT（Supervised Fine-Tuning）是指在有监督的环境下对模型进行微调。）进行改进。

因此，我们观察到，模型的推理能力与它在不同语言中的响应能力之间的平衡也很重要。最终，后训练中的所有内容都是一种权衡。你可以对模型的某个特定能力进行SFT，比如编码能力，就像我们在Llama的代码中做的那样。这确实取得了很好的效果，但这也会导致模型在其他领域的表现有所下降。因此，最终就成为了一个能力的帕累托前沿问题，即你希望在通用模型中实现哪些能力。

最终，这一切都是权衡的过程。任何人都可以选择一个基准或某种能力并进行超优化，并声称自己的模型优于GPT-4，但这是否意味着你的模型在总体能力上与GPT-4或Llama 3.1等其他模型一样强大，那就是另一回事了。

Training Data：你认为未来有哪些关键因素可以解锁推理能力？

Joe Spisak：显然的答案是数据。也就是说，获得更多的数据，尤其是代码和有监督数据，是一种自然的解答。我认为我们还需要找到应用场景，以帮助我们定义推理能力。一旦找到那些关键应用场景，我们就能更明确地知道应该在其他方面集中精力，例如针对特定的目标进行优化。这也涉及到评测（Evals），即你如何定义评测标准。

因为我们开始遇到评测的饱和问题。作为一个社区，我们倾向于定义一个基准或指标，然后对其进行优化，这确实有效；但当你将模型放在实际环境中时，你会发现，虽然模型的MLU得分更高，但实际响应效果却不好。因此，我认为我们需要更好的评测和基准，这样才能更清晰地了解实际交互情况。我觉得像“abacus benchmark”这样的基准——虽然我记不清它的确切名字——是不错的。我看过这些基准，像Alum CIS和Chef Out Arena，这些都是更自然的基准。尽管它们仍然不完美，但它们朝着更人性化的交互方向发展，相较于静态数据集或静态提示集，它们更有用。

所以，我认为一旦我们开始找到合适的推理用例，我们将生成更多的数据，并在这些数据上改进模型。希望这将直接与某种基准或评测标准对接，从而真正改善最终产品。这很大程度上依赖于最终产品的应用场景。换句话说，关键在于我的应用是什么，以及如何通过改进模型来优化这个应用。

Training Data：在大型研究实验室中，编码和数学一直是用于探索推理能两个主要的类别。而现在我们看到更多的初创公司倾向于从数学角度入手。你对此有何看法？这种方法是否带来了有趣的突破？

Joe Spisak：我的回答是，确实如此。如果你看看我们的数据或模型，我们发现编码和数学一直是主要的突破点。所以，显然拥有更多的数据是更好的，因为数学本身也是非常逻辑性和步骤化的。所以你可以看到这里的模式：数据越多，模型的推理能力就越强。这在模型的响应方式中也可以看到，比如当你要求它们详细解释思考过程时，模型能够逐步进行解释。一些模型在这方面做得更好，而有些则表现较差。

我认为，科学论文也是一个重要的领域。我们曾经有一些来自FAIR的项目，它们在训练过程中使用了归档的论文。你可以看到，不仅仅是代码和纯数学有助于推理，科学论文也很有帮助。科学家们在写作时非常逻辑化，步骤清晰，并且在创建图表和其他视觉材料时也很有条理。这些科学信息对提升模型的推理能力也起到了积极作用。Galactica是我们的项目，Robyn Ross和她的代码团队领导了这个项目。在我看来，这仍然是最酷的项目之一。尽管它们收到了不少负面评价，但我认为他们在当时确实是走在前沿的。

图片来源：Unsplash

开发者应当如何利用小模型？

Training Data：我很想谈谈小型模型。考虑到许多初创公司拥有的资本和计算资源，8B和70B模型对生态系统来说是一个了不起的礼物。有趣的是，你们一开始仅仅称它们为“开胃菜”，但我认为它们在那个范围内确实非常强大。同时，它们在许多需要小型模型的应用中也非常有用。考虑到它们在其模型规模上处于顶尖水平，我很想了解你们希望开发者如何利用这些8B和70B的模型。

Joe Spisak：有趣的是，当我们在四月发布Llama 3时，我们发布了8B和70B这两个“开胃菜”模型。实际上，8B模型的表现比Llama 2的70B模型要好得多。我当时看着图表，心想这是否真的正确？结果确实如此，8B模型的表现确实好得那么多。

Training Data：从直觉来看，这种情况发生的原因是什么？

Joe Spisak：我们使用了更多的数据，这次的数据量是之前的7倍。我们还投入了更多的计算资源。因此，我们回到了计算和数据的关键点，我们在这些方面进行了更多的推进。

我认为，随着每一代模型的提升，进步的速度也在加快。你会看到大型模型的基准开始被压缩到较小的规模，例如70B的模型在8B模型中表现出色。我们内部还有一些模型，甚至比8B的规模更小，但我们开始看到这些更小模型的基准表现也非常好。因此，模型在较小规模上的性能不断提高。这说明我们在推动架构的发展、扩展规模，同时我们还没有完全饱和这些模型的潜力，这一点非常有趣。

对我来说，小型架构有一个重要的应用场景就是设备端的应用。大家都在谈论设备端，比如苹果，谷歌也在Android设备上运行Gemini模型。所以，设备端的应用确实很有意义。

安全性方面很有趣。我们内部有自己的Llama Guard版本，用于公司和Meta的应用。现在，这些版本基于8B模型，而运行这样的安全模型成本较高，因为它是一个次级模型。我们在内部尝试使用更小的模型，这样可以提高效率，降低延迟。实际上，这些模型主要是分类器，而不是像聊天界面那样的自动生成模型。它们的主要功能是对输入的提示进行分类，判断是否违反了分类中的某个类别。因此，这些模型实际上可以进一步优化。

针对设备端的应用确实也有一些非常有趣的案例。当谈到隐私和数据时，用户希望数据保留在设备上。例如，可以考虑在设备上使用RAG架构。在这种情况下，数据，包括聊天记录（如WhatsApp中的记录），可以存储在本地。模型可以访问这些数据并进行汇总，然后执行某种类似于迷你向量数据库的操作。通过在设备上使用RAG进行模糊搜索或匹配，这些小型模型可以形成一个独立的系统，处理和利用本地数据。这种方法不仅保护了隐私，还提升了效率。

你可以做很多本地化的任务，比如本地总结信息。我举个例子，我经常收到大量的短信，有时候我会在会议中错过查看手机。这时，如果我能让模型总结我最近的15条短信，那就非常有用，而且我不需要将数据上传到云端或其他地方。这些应用场景中，小型模型确实会非常吸引人。对于复杂的查询和任务，当然可以依赖于云端的大型模型来处理。但对于许多其他情况，我认为设备端、边缘计算或本地部署的小型模型也能表现得很好。

如何超越未来的数据瓶颈？

Training Data：你谈到了计算和数据的扩展，这时两种基本的性能指标。最近有很多讨论关于我们是否会遇到数据的瓶颈，或者是否可以依靠合成数据等。我很好奇你的看法，比如我们是否会遇到一个数据瓶颈？也许是便宜且可得的数据？如果会，应该如何扩展来超越这一瓶颈？

Joe Spisak：我认为，正如我们在这次发布中所展示的，合成数据确实有很大的帮助。在预训练阶段，我们使用了15万亿个token，而在后训练阶段，我们生成了大量的合成标注数据，其中很多数据是由405B模型生成的，当然我们也为这些标注支付了费用。

我确实认为合成数据是一个潜在的发展方向。现在我们已经在模型中看到了它的效果，这不仅仅是讨论而已。虽然合成数据提供了很大的帮助，但我认为数据的稀缺在某个阶段仍然会成为一个挑战。这也是为什么许多公司现在选择许可大量数据，以获取开放的数据、许可数据等。

我认为，能够访问生成数据以改进模型的服务是非常重要的，对许多公司来说这本质上是一种优势。例如，谷歌拥有YouTube，这对他们来说无疑是有价值的。这也意味着，大型公司在这方面具有优势，这并不是新鲜事。我们已经花了很长时间讨论这个问题。

关于数据瓶颈的问题，我不知道——我认为我们还没有遇到这个瓶颈。我会说，不妨再等一年，看看我们到时候的情况如何。你可以在我的日历上标记一下，明年这个时候再讨论。到目前为止，我们还没有碰到瓶颈，我们仍在扩展、收集大量数据、生成数据，而且我们的模型也在持续改进。所以，暂时来说，我们还没有遇到这个问题。

快问快答

Training Data：让我们用一些快速问答来结束这次讨论。你认为哪一年会超过Sweet Bench的50%门槛？

Joe Spisak：好问题。如果我对这个问题还有所了解，那就是可能会比我给出的答案还要快，因为任何基准测试很快就会针对这个问题。人们会深入研究并解决它，所以我没有确切的答案，只能说会很快。

Training Data：我们一直在问的一个问题是：哪一年开源模型会超越其他公司在前沿的模型？现在，我们可以把这个问题拿掉了，感谢你们的贡献。

Joe Spisak：我要说确实如此，我们几乎已经达到了这个水平。我认为405B确实非常出色，毫无疑问，它已经达到了那个级别。这是非常令人惊叹的。

Training Data：Meta是否会始终开源Llama？

Joe Spisak：我认为Mark对开源非常有承诺。你看过他的信，我们已经开源了很多年，从PyTorch到FAIR，再到Llama模型。这并不是公司一时兴起的事情，公司长期以来一直致力于开源。因此，我不会说绝对不会，但公司和Mark确实非常致力于这个方向。

Training Data：非常感谢你今天的参与，Joe，也感谢你为整个生态系统所做的所有工作。我认为整个AI社区都会对你们推动Llama和未来的进展所做的努力非常感激。

Joe Spisak：这是一个庞大的团队。请查看论文，看看所有的致谢。我们需要像《星球大战》那样滚动显示所有贡献者的名单，因为这是一个极其庞大的团队。所以我要向团队致以敬意。推出Llama确实是一个集体努力的成果，我为能在这里代表团队而感到自豪和兴奋。再次感谢大家。

原文：Meta’s Joe Spisak on Llama 3.1 405B and the Democratization of Frontier Models | Training Data

https://www.youtube.com/watch?v=XPePYzbRILg

编译：Amber

-----------END-----------

🚀 我们正在招募新一期的实习生

🚀 我们正在寻找有创造力的00后创业者

关于Z Potentials

http://mp.weixin.qq.com/s?__biz=MzI4NTgxMDk1NA==&mid=2247498430&idx=1&sn=7a9390f226cce01a84f3c67b26da7f61

Z Potentials

我们与Z Potentials同频共振