👇关注公众号后设🌟标,掌握第一手AI新动态
本文访谈内容整理自Fireworks AI CEO林乔接受Latent Space Youtube频道专访,公开发表于2024年11月25日。原始内容参考:https://www.youtube.com/watch?v=hQ7rppq-eZc
Fireworks AI林乔接受Latent Space专访
★内容导读:
这篇访谈主要围绕Fireworks公司及其CEO林乔展开,核心观点如下:
Fireworks的起源和发展: 最初设想为PyTorch云平台,后基于市场需求转向专注于生成式AI推理服务,尤其关注大型语言模型(LLM)。 公司快速迭代,从单一分布式推理引擎发展到涵盖多种模态(文本、音频、视觉)的复合AI平台。 产品策略与客户导向: Fireworks并非构建一个通用的PyTorch云,而是选择垂直化发展,优先满足客户需求。 公司重视与客户紧密合作,了解其痛点并根据反馈调整产品方向,例如从最初的OpenAI兼容API到如今支持多种模型和模态。 产品策略注重易用性,将底层复杂性隐藏于用户界面之后,目标用户是应用程序开发人员和产品工程师,而非AI研究人员。 复合AI战略: Fireworks强调复合AI,认为单一模型难以满足复杂应用的需求。 其平台整合了多种模态的模型、API、数据库和知识系统,以实现更强大、更准确的结果。 这与追求单一大型模型的策略形成对比。 技术优势: Fireworks拥有自主研发的分布式推理引擎和Fire Optimizer,可以跨多个GPU和地域进行分布式推理,并针对不同模型和硬件进行优化,在质量、延迟和成本之间取得平衡。 此外,公司拥有自定义内核(例如Fire Attention),显著提升推理效率。 公司还支持多LoRa技术,允许用户以低成本部署个性化模型。 开源与闭源之争: Fireworks基于开源模型构建,但通过优化和整合,提供超越单一开源模型的性能和易用性。 公司认为开源模型的质量差距正在缩小,未来将走向专业化,而非追求一个解决所有问题的通用模型。 公司将发布一个接近OpenAI O1质量的新模型,并计划分享部分推理轨迹。 与竞争对手的差异化: Fireworks的竞争优势在于其易用性、对客户的重视以及高效的团队协作。 公司强调以客户为中心,快速响应需求,并通过持续优化和迭代来提升产品价值。 公司认为低延迟和低成本对于基于生成式AI的应用至关重要。 未来发展方向: 公司将继续扩展模型库、改进优化器,并推出新的声明式系统,目标是提供更便捷、更高效的生成式AI服务。 公司也积极寻求与社区合作,收集反馈以改进产品。 持续招聘高端人才。
林乔简介
林乔(Lin Qiao)是Fireworks AI的首席执行官兼联合创始人。林乔曾在Meta Platforms工作,她的工作履历丰富,曾在Meta Platforms担任高级工程总监,领导过PyTorch项目、AI框架和平台工程师团队。
林乔在创立Fireworks AI前,长期与现公司联合创始人兼CTO Dmytro Dzhulgakov共事。他们共同致力于打造一个专为开发人员构建的生产型AI平台。Fireworks AI通过其工具帮助企业微调和定制模型,以满足特定需求,并允许企业使用其平台访问大量的模型。
林乔强调,Fireworks AI的使命是加速整个行业的产品上市周期,将其从数年压缩到数周甚至数天。这是通过优化AI模型训练和推理时间来实现的。
访谈完整记录
主持人Alessio: 我是Alessio,Decibel Partners的CCO合伙人,与我一起的是我的联合主持人SWYX,Smal AI的创始人。
主持人SWYX: 大家好,今天我们非常荣幸地来到Fireworks办公室的特别演播室,与Fireworks的CEO林乔(Lin Qiao)进行访谈。欢迎!但我想,我们与你们的合作关系与我们所有其他嘉宾的合作关系相比也有些不同寻常。
林乔: 当然。是的,我非常高兴能和两位一起讨论这个领域中非常有趣的话题。你们昨天刚刚庆祝了公司成立两周年纪念日。是的,这是一段相当疯狂的旅程。我们回顾并分享了这两年中所有疯狂的故事,这真的非常有趣。从经历硅谷银行破产事件,到误删了一些不该删除的数据(运营方面),再到经历大规模扩张,我们忙于提升产能…,是的,我们学会了如何作为一个团队与来自不同地方的许多优秀人才一起工作。这真是一段充满乐趣的旅程。
主持人Alessio: 刚开始的时候,你认为技术方面会更难,还是银行破产和人员方面更难?我认为有很多优秀的科研人员想要创办公司,而最难的事情是构建产品。然后你还要处理各种创始人的事情。所以,你的经历是否出乎你的意料?
林乔: 是的,说实话,我一直专注于产品方面。然后是产品上市。我没有意识到其他方面会如此复杂。运营一家公司等等。但我并没有过多考虑这些,只是处理好遇到的问题。所以就这么完成了。我想我只是没有想太多,而是解决遇到的问题,结果它奏效了。
主持人SWYX: 那么让我们从Fireworks的早期历史,也就是最初的历史开始说起吧。你在Meta领导PyTorch团队多年。我们之前采访过Sumith Chintala。我认为我们都对生成式AI的历史非常感兴趣。也许很多人不知道FAIR和Meta在当前生成式AI革命之前参与得有多深。
林乔: 是的。我的背景是分布式系统和数据管理系统。我从数据方面加入Meta,在那里我见证了海量数据增长,这带来了巨大的成本。我们正在分析正在发生的事情,很明显,AI正在驱动所有这些数据的产生。这是一个令人着迷的时代,因为当我加入Meta时,公司正在从移动优先转向AI优先战略。这个顺序有一个根本原因:移动优先提供了前所未有的用户参与度,这反过来又产生了大量为AI提供动力的数据。因此,整个行业都在经历同样的转变。
在意识到AI正在推动数据生成并检查我们的AI技术栈后,我发现软件、硬件、人员和团队都匮乏。我想深入参与并为这场运动贡献力量。当我开始时,AI行业的景象很吸引人,其特点是AI框架激增。然而,所有这些框架主要关注生产,采用特定方式定义神经网络图来驱动模型激活和产品化。PyTorch与众不同,因为它从根本上不同。
要特别感谢Sumit,他作为研究人员是其产品的用户。他在使用现有的AI框架时面临着巨大的挑战,这些框架难以驾驭。他决心为自己创造更好的东西,从而催生了PyTorch,它最初的目标是面向研究人员,而不是专注于生产。随着采用率的提高,AI的迷人之处在于研究可以推动正常的生产。许多研究人员,包括学术界和工业界,都在开源格式中进行创新并分享他们的成果,从而实现了下游产品化。这使得Meta将PyTorch确立为推动大规模开源采用的战略变得非常出色,因为Meta内部就是一个PyTorch的工作室,这创造了一个飞轮效应。
然而,当我接手PyTorch时,正值Meta将其确立为研究和生产框架的关键时刻,这是以前没有人实现过的壮举。我们需要重新思考PyTorch的架构,以有效地支持生产工作负载。稳定性、可靠性和低延迟——生产方面的考虑——最初并非优先事项,但它们变得至关重要,需要调整设计以适应两方面。这项工作花费了我们五年时间。
Meta有许多AI用例,从推动公司收入的排名推荐,到新闻推送排名、视频排名和网站完整性(这涉及使用AI自动检测有害内容),以及翻译、图像分类和目标检测。我们的AI运营范围很广,运行在服务器端系统、移动电话和AI驱动的VR设备上。当我们达到某个点时,我们基本上设法在Meta广泛地支持AI。
有趣的是,通过我们的开源参与,我们与各家公司合作,并看到该行业正在开始其AI优先的转变。Meta作为一个超大规模的组织,通常领先于行业。很明显,在我们AI之旅的开始,我们缺乏软件、硬件和团队,这反映了我们在通过PyTorch与他们合作期间许多公司所感受到的痛苦。这就是我们相信如果我们创建Fireworks并通过这种转变来支持行业,它将产生重大影响。当然,行业面临的挑战与Meta不同,Meta规模要大得多,并且偏向于极端规模和优化。然而,我们相信我们拥有必要的技术知识和经验来推动这场运动向前发展。这就是我们开始的方式。
主持人SWYX: 你我之前聊到Fireworks的起源时,它最初被设想为一个PyTorch平台,后来更专注于生成式AI。这么说公平吗?这里的客户发现过程是怎样的?
林乔: 是的。我想说我们最初的蓝图是,嘿,我们应该做一个PyTorch云,因为PyTorch是一个库,没有SaaS平台能够支持AI工作负载。即使在2022年,也很有趣。我不会说绝对没有,但云提供商有一些这样的平台,但它并非一流的。不同的,对吧?因为在2022年,TensorFlow仍然大量用于生产,所有这些都在生成式AI到来之前。PyTorch正在获得越来越多的采用,但当时还没有PyTorch优先的SaaS平台存在。
与此同时,我们也是一群非常务实的人。我们真的想从一开始就确保与客户建立非常紧密的联系。我们了解他们的用例,了解他们的痛点,并了解我们为他们提供的价值。所以我们想采取不同的方法。我们不想构建一个水平的PyTorch云,而是想先构建一个垂直化的平台。
然后我们与许多客户进行了交流。有趣的是,我们在2022年9月创立了公司,在10月和11月,他们推出了新的ChatGPT。当我们与许多客户交谈时,他们问道:“你们能帮助我们处理生成式AI方面的工作吗?”当然,有一些开源模型,但当时的模型并不那么好。然而,人们已经开始关注那里。因此,我们决定,如果我们要选择一个垂直领域,我们将选择生成式AI。另一个原因是所有生成式AI模型都是高信任模型。
我们相信,由于生成式AI的特性,它将生成大量人类可消费的内容。它将推动大量面向消费者和开发者的应用程序和产品创新。这是肯定的。我们才刚刚开始。我们的预测是,对于这类应用程序来说,推理比训练更重要,因为推理规模与世界人口上限成正比,而训练规模与研究人员数量成正比。当然,每一轮训练都可能非常昂贵。虽然PyTorch支持推理和训练,但我们决定专注于推理。
所以,这就是我们开始的方式。我们在去年8月推出了我们的公共平台,当时只有一个产品——一个具有简单API和与各种模型开放、API兼容接口的分布式推理引擎。我们从LLM开始,后来又添加了许多模型。快进到今天,我们拥有一个拥有多条产品线的完整平台。我们喜欢深入探讨我们提供的服务。所以在过去的两年里,这是一段非常有趣的旅程。
主持人Alessio: 你们最初专注于 PyTorch,人们希望理解这个框架并将其应用于实际,而现在,我认为大多数使用你们产品的人甚至不太了解 PyTorch,他们只是试图使用模型。从产品的角度来看,你们早期做出了哪些决定?比如在十月、十一月的时候,你们是否就认定大多数人只关心模型,而不关心框架,所以决定让它超级容易上手?还是说,这更像是一个逐渐过渡到你们今天拥有的模型库的过程?
林乔: 是的,我们的产品决策完全基于我们的目标客户群体。我们要承认的一点是,生成式AI技术具有颠覆性。它与 生成式AI之前的 AI 截然不同,标志着一次明显的飞跃。在 生成式AI之前,想要投资 AI 的公司必须从零开始训练模型。那时没有现成的基础模型,因此他们需要组建一支能够处理海量数据的团队。
从零开始训练需要大量的预处理数据。公司需要 GPU 进行训练,然后他们还需要管理这些 GPU,这使得项目变得非常复杂。这需要很长时间,而且并非所有公司都能承担这样的工作。
然而,现在的生成式AI则完全不同,因为它是一个基础模型,无需进行大量的训练。这一发展使得 AI 技术更容易获得。即使是应用程序开发人员和非开发人员的产品经理也可以直接与生成式AI模型交互。因此,我们的目标是让所有应用程序开发人员和产品工程师都能使用这项技术。
鉴于这项新技术,让开发者参与模型构建过程已经没有多大意义了。相反,构建简单易用的 API 至关重要。早期,当我们开始时,我们决定与 OpenAI 兼容。这种方法简化了开发人员的采用过程,同时我们管理着为所有这些模型提供服务所带来的底层复杂性。
主持人SWYX: OpenAI 已经成为标准。即使在我们录制节目的今天,Gemini 也宣布他们拥有与 OpenAI 兼容的 API。很有趣。然后我们只需要提供在线示例即可。
林乔: 是的,我们必须这样做。这很有趣,因为我们正与 Meta 作为合作伙伴之一密切合作。Meta 宣布,Meta 当然非常慷慨地捐赠了许多非常强大的开源模型,并预期会有更多模型出现。但他们也宣布了 Llama Stack,它基本上是在 Llama 模型之上构建的标准化高级堆栈。所以他们不只是想提供模型让你们自己去搞定上层堆栈,他们更希望围绕这个堆栈建立一个社区,并建立一个新的标准。我认为现在行业中存在一个有趣的动态。一种是跨 OpenAI 更加标准化,因为它们创建了内核顶层;另一种是跨 Llama 标准化,因为这是最常用的开源模型。所以我觉得在这个时期工作真的很有趣。
主持人SWYX: 我对 Llama Stack 稍微有点怀疑。我认为你对它更乐观。基本上,它就像 Meta 版本的 Hugging Face、TensorRT 或任何开源方案。但对我来说,并不清楚仅仅因为 Meta 开源了 Llama,Llama Stack 的其余部分就会被采用。而且我不清楚我为什么要采用它。
林乔: 所以我不确定你是否了解,现在还非常早。这就是为什么我会与他们密切合作并向他们提供反馈。对 Meta 团队的反馈非常重要。这样他们就可以利用这些反馈来继续改进模型,并改进更高级别的功能。我认为 Llama Stack 的成功很大程度上取决于社区的采用,这是无法避免的。我知道 Meta 团队希望与更广泛的社区合作,但这还处于早期阶段。
主持人SWYX: 在你们 B 轮融资之后,你们从 Benchmark 和 Sequoia 那里获得了融资,我记得至少在你们 B 轮融资公告期间与你们关系密切。你们开始大力押注“复合 AI”这个术语。我们在播客中并没有过多讨论这个术语,但我认为它肯定受到了 Databricks 和伯克利大学等人的广泛采用。你对复合 AI 的看法是什么?为什么它会引起人们的共鸣?
林乔: 好的。让我给你一些背景,解释一下我们为什么甚至会考虑这个领域。
主持人SWYX: 是的,因为在 B 轮融资之前,你们没有这个信息。是的,现在它就在你们左侧。
林乔: 所以这是一种非常有机的演变,从我们第一次推出我们的公共平台开始。我们最初只有一个产品:一个分布式推理引擎。在这里,我们对定制的 CUDA 内核、Rocket 内核进行了大量的创新,这些内核运行在不同类型的硬件上,并构建了用于推理的分布式、分散式执行。我们还构建了各种缓存解决方案。这是我们业务的一个方面——快速、最具成本效益的推理平台。因为我们编写了 PyTorch 代码,所以我们有一个专门为此设计的 PyTorch 版本,以及我们开发的自定义内核。
随着我们与更多客户的接触,我们意识到我们的分布式推理引擎被设计成一个“一刀切”的解决方案。我们的目标是创建一个推理端点,让每个人都能插入,无论他们的形式、形状或工作负载如何。然而,现实情况是所有客户都有不同的用例。这些用例有多种形式,因此,他们推理工作负载中的数据分布通常与模型训练数据中的数据分布不一致。这种不一致使得我们在质量、延迟和成本改进方面错失了大量机会。因此,我们决定投资于一个定制引擎,我们将其命名为 Fire Optimizer。Fire Optimizer 帮助用户在质量、延迟和成本这三个维度上进行优化。
即使在一间公司内部,不同的用例也可能需要在这个优化曲线上的不同点着陆。我们为客户自动化这个过程:他们将他们的推理工作负载和我们的目标函数输入到优化器中,我们为他们提供量身定制的推理部署配置和模型设置。这代表了一种完全不同的产品思维方式——从“一刀切”转变为“量身定制”。此外,我们提供了大量的最先进模型,数百个,从我们最初开始使用的大型英语文本模型,到更复杂的音频和文本功能。
在我们与许多客户交谈时,我们发现音频和文本是密切相关的。我们的许多客户开始使用文本构建各种辅助应用程序,但渴望加入音频功能,例如转录和语音合成。因此,我们现在支持各种音频功能,这是一个我们非常兴奋的重要公告。除了音频之外,我们还认识到视觉和文本之间的密切关系。许多信息并不存在于纯文本中;相反,它通常存在于多媒体格式中,如图像、PDF 和屏幕截图。为了有效地解决某些问题,我们需要利用视觉模型来提取信息,然后用语言模型处理它并产生最终结果。
因此,我们还支持各种视觉模型,每个模型都专门用于处理不同类型的来源和提取任务。我们计划宣布一个新的 API 端点,允许用户上传各种多媒体内容,从而实现准确的信息提取,然后可以将其输入到我们的语言模型中。此外,我们支持嵌入,这对于语义搜索和相关应用程序至关重要。此外,我们正在扩展我们的产品组合,包括文本到图像生成、图像到图像转换,甚至文本到视频模型,最终创建一个全面的模型目录,这些模型运行在 Fire Optimizer 和我们的分布式推理引擎之上。
随着我们与客户的持续讨论,很明显,依赖单个模型通常不足以满足他们的需求。使用我们生成式AI 系统的客户常常期望一个神奇的解决方案。然而,他们很快认识到模型的局限性,包括“幻觉”现象,即模型根据概率生成响应,有时可能会导致错误信息。不同的模型有独特的专长,为了有效地解决问题,必须将任务分解成更窄的组件,并使用擅长这些领域的专家模型。
此外,重要的是要注意,模型并不拥有无限的知识;它们是在有限的数据上训练的,这通常会导致缺乏实时信息,并可能排除企业内部的专有知识。要在生成式AI 框架上真正构建一个引人注目的应用程序,我们需要一个复合 AI 系统。这个系统结合了跨模态的多个模型,并连接到各种 API——公共的、内部的、专有的——以及存储系统、数据库和知识系统,以协同工作并提供最佳答案。
在支持向量数据库方面,我们已经与几家知名提供商建立了强大的合作伙伴关系。他们每个人都在不同的方面表现出色,但众所周知的是 MongoDB 是我们的投资者之一,我们已经与他们密切合作了一段时间。
主持人Alessio: 当您提到分布式推理引擎时,您到底是什么意思?因为当我听到您的解释时,感觉您似乎通过Fireworks平台对质量等方面进行了大量的集中决策。您所说的分布式是什么意思?难道是您在许多不同的集群中都有GPU,然后将推理任务进行分片处理吗?
林乔: 没错,没错。首先,我们在多个GPU上运行。但是我们跨多个GPU进行分布式处理的方式是独一无二的。我们不会将整个模型整体地分布到多个GPU上。我们会将其分割成多个部分,并根据瓶颈的不同进行完全不同的扩展。
我们还在不同地区进行分布式部署;我们在北美、亚洲都有运行。我们根据应用的地域属性进行部署,因为延迟非常重要。我们还在进行全局负载均衡,因为许多应用程序会迅速扩展到全球范围。在这个规模下,不同的内容会在不同的时间被访问,因此需要相应地平衡负载。
最后,我们管理来自不同硬件厂商的各种硬件资源。不同的硬件设计最适合不同类型的负载,无论是长上下文、短内容还是长文本生成。所有这些不同类型的负载最适合不同的硬件资源,我们甚至可以针对特定负载将其分布到不同的硬件上。所以是的,这种分布实际上涵盖了整个技术栈。
主持人SWYX: 我们会在YouTube上展示Ray制作的一张图片,展示你们提供的各种模态。对我来说,这基本上意味着你们提供了OpenAI通常提供的所有功能的开源版本。我认为没有其他公司能做到这一点。实际上,如果你们同时提供文本和视频功能,那么你们将超越OpenAI提供的功能,因为他们没有Sora。顺便问一下,那是Mochi吗?
林乔: 是Mochi。还有其他一些。我想说的是,有趣的是,我认为我们押注于开源社区的增长和繁荣。这正是我们目前所看到的。是的。而且有令人惊叹的视频生成公司。是的。也有令人惊叹的音频公司。比如Crossboard,其创新能力超乎寻常。我们正是在此基础上进行构建的。我认为这是我们与闭源公司相比的优势。
主持人SWYX: 我想重新阐述一下Fireworks的价值主张,以便那些将你们与RunPod或Lambda等原始GPU提供商进行比较的人能够理解。也就是说,你们创建了开发者体验层,并且还使其易于扩展或作为无服务器端点。然后我认为对于某些模型,你们有自定义内核,但并非所有模型都有。
林乔: 几乎所有模型都有,所有大型语言模型都有。所有你的模型。以及VRS。是的,几乎所有我们服务的模型都有。
主持人SWYX: 所以那被称为Fire Attention?叫做Fire?我不记得具体的加速数值了,但显然很不错,尤其是在并发性方面。
林乔: 没错。Fire Attention主要针对语言模型,但对于其他模态,我们也会有定制化的内核。
主持人SWYX: 是的,我认为人们面临的典型挑战在于理解其价值。还有其他人也在提供开源模型。你们的护城河在于你们能够为所有这些客户提供良好的体验。但是,如果你们的生存完全依赖于人们发布优秀的开源模型,其他人也可以做到同样的事情。
林乔: 所以我想说的是,我们构建在开源模型的基础之上。这就是我们构建的基础。然而,我们从应用程序开发人员和产品工程师的角度来看待价值主张。他们的目标是创造新的用户体验(UX)。目前业界正在发生的事情是,人们正在考虑一种全新的产品设计方法。我和许多创始人谈过,他们让我对现有做事方法有了令人耳目一新的理解——比如PowerPoint演示文稿、编码和客户服务管理——这些方法往往限制了我们的思维。例如,对于PowerPoint,我们总是需要将我们的故事融入一系列幻灯片中,在设计和叙事之间进行权衡。但最关键的方面是确定故事线是什么。为什么不创造一个不受任何格式限制的空间呢?结合生成式AI的自动化内容生成的新产品UX设计,是许多创始人目前正在追求的目标。
他们面临哪些挑战?一个挑战是许多基于生成式AI的产品面向消费者,需要交互式体验。这是我们都习惯了的那种产品体验,而我们的愿望是实现更快更快的交互。没有人想浪费时间,对吧?因此,这需要低延迟。此外,消费者个人发展的性质意味着你的受众非常广泛。在实现产品市场匹配后,你希望快速扩展。但是,如果你在小规模上亏损,你可能会很快破产。这里存在一个对比:你可能拥有产品市场匹配,但扩展可能会导致你的业务发展速度超过你的能力。这是一种有趣且略带滑稽的思考方式。因此,对于这些新的应用程序和产品来说,低延迟和低成本对于它们的生存和发展成为成功的公司至关重要。
这就引出了我们对分布式推理引擎和文件优化器的设计考虑。您可以将文件优化器视为一个反馈循环。您向我们的推理引擎提供推理工作负载越多,我们就越能帮助您提高质量、降低延迟并进一步降低成本。它基本上会随着使用而变得更好。我们自动化了这个过程,因为我们不希望应用程序开发人员或合作伙伴工程师担心底层细节。处理这些复杂性并不是他们接受的培训。相反,他们应该专注于合作伙伴创新。
此外,由于大量可用的AI模型,我们作为应用程序开发人员和工程师也面临着巨大的痛点。每周至少会发布一个新的模型——比如腾讯最近发布的巨型模型。开发人员面临着是追逐最新的模型还是忽略它们的困境。他们还必须决定选择哪个模型来解决特定的子问题。他们如何将问题分解成更小的组件并将合适的模型拟合到每个组件中?这是一个巨大的挑战。
有两种方法可以解决这个设计难题。一种是命令式方法,您确定如何完成一项任务,并为此提供开发者工具。另一种是声明式系统,开发人员指定他们想做什么,而不是怎么做。这些从根本上来说是不同的设计。例如,在数据领域,数据库管理系统是一个声明式系统,因为人们使用SQL与数据库交互。SQL允许用户表达他们想要从数据库中提取什么,而不必考虑底层复杂性,例如在哪些节点上运行或如何定义磁盘访问或索引。数据库管理系统负责生成和执行这些查询的最佳计划。
另一方面,命令式系统可能涉及创建复杂的ETL(提取、转换、加载)管道,这些管道需要对操作和触发器进行明确的定义,其中任何事情都可能失败,并且需要恢复计划。我们已经观察到生态系统中的各种系统采用了不同的方法。我相信两种范式都有价值;两者都不会完全取代对方。然而,我们倾向于构建一个声明式系统,因为这种理念最符合应用程序开发人员和产品工程师的需求,使他们更容易集成。
主持人SWYX: 我理解,这也是我相当富有的原因之一。
林乔: 嗯,这是原因之一。易用性。所以,是的,专注于易用性,然后让系统承担艰巨的挑战和复杂性。因此,我们在当前的系统设计中遵循并扩展了这种思路。所以另一个公告是,我们还将宣布我们的下一个声明式系统将以一个具有极高质量的模型的形式出现。这个模型的灵感来自OpenAI的O1公告。在我们宣布这个消息前后,你们应该就能看到它。
主持人Alessio: 由你们训练的?这是你们训练的第一个模型吗?
林乔: 它不是第一个。我们实际上已经训练了一个名为Fire Function的模型。这是一个函数调用模型。这是我们迈向复合AI系统的第一步,因为函数调用模型可以将请求分派到多个API。我们有预先设置好的API,模型已经学习了这些API。您也可以通过配置添加额外的API,让模型相应地进行分派。所以我们已经发布了一个非常高质量的函数调用模型,实际上已经有三个版本了。最新版本质量非常高。但现在我们更进一步,您甚至不需要使用函数调用模型。您可以使用我们将要发布的新模型,它将解决许多问题,并接近OpenAI的极高水准。对此我感到非常兴奋。
我们有一个基准测试,我们准备发布它。希望下周能发布。我们刚刚将我们的模型提交给了LMSYS。人们纷纷猜测,这是下一个Gemini模型?人们在猜测。这很有趣。我们现在正在关注Reddit上的讨论。
主持人SWYX: 我必须就此提出更多问题。当OpenAI发布O1时,许多人询问它是一个单一模型还是一系列模型的链式结构。Noam和Strawberry团队的几乎每个人都非常坚持认为,他们对强化学习和思维链所做的工作,无法通过一堆开源模型调用来复制。你认为他们错了么?你们在强化学习上投入的工作量与他们一样多吗,还是方向不同?
林乔: 我认为他们采用了一种非常具体的方法,而我的团队实力也很强大。所以我认为他们是这方面领域的专家,但我不认为只有一种方法可以达到相同的目标。
我们在方向上是一致的,即质量缩放定律正在从训练转向推理。我完全同意他们的这一点,但我们采用了完全不同的方法来解决这个问题。
所有这一切都是因为,当然,我们并没有从头开始训练模型。我们是站在巨人的肩膀上,对吧?所以我们目前可以访问的模型越来越好。
未来的趋势是,开源模型之间的差距将缩小到几乎没有区别的程度。然后我们就处于同一个竞争水平。
这就是为什么我认为我们早期对推理的投资以及我们在平衡质量、延迟和成本方面所做的所有工作都得到了回报,因为我们在那里积累了大量的经验。这使我们能够发布这个接近OpenAI质量的新模型。
主持人Alessio: 我想问题是,你认为赶上的差距有多大?因为我认为每个人都同意开源模型最终会赶上。而且我认为有了Llama 3.2、3.1、405B,我们缩小了差距。然后O1又将差距拉大了这么多,目前还不清楚。显然,你认为你的模型将会赶上。是的,但是你认为未来会是几个月吗?
林乔: 事情是这样的,对吧?有一个公开的基准测试,结果就是这样。但实际上,开源模型在某些方向、维度上已经与闭源模型不相上下,甚至超过了闭源模型。例如,在编码领域,开源模型真的非常好。在函数调用方面,像Fire Function也非常好。所以问题在于,你是构建一个模型来解决所有问题,并且想成为解决所有问题的最佳模型;还是在开源领域,它会专门化。所有这些不同的模型构建者都专注于某些狭窄的领域。他们能够在那个非常狭窄的领域做得非常好,这是合乎逻辑的。而我们的预测是,随着专业化的发展,将会有很多专家模型非常好,甚至比那种通用的开源、闭源模型更好。
主持人SWYX: 我认为这是我仍然没有100%确定立场的一个核心争论,即复合AI与普通AI,因为你基本上是在挑战“痛苦教训”(the Bitter Lesson)。
林乔: 看看人类社会,对吧?我们专业化了。你会对某个人专注于某件事并做得很好感到非常满意,对吧?这就是我们从古代进化而来,我们都是通才,什么都做。是的。部落也是如此。现在我们已经专业化到不同的领域。所以我预测在AI模型领域,也会发生这种情况。
主持人SWYX: 关于“痛苦教训”。通过拥有专家、领域专家,你可以获得短期收益,然后有人只需要在一个大10倍的模型上进行10倍的推理、10倍的数据、10倍的模型参数(无论当前的缩放定律是什么),然后它就会超越所有单个模型,因为某种泛化智能/世界知识。我认为这是GPT的核心见解。
林乔: 是的。但是缩放定律,同样,训练缩放定律是因为你有越来越多的数据来训练,并且你可以进行大量的计算。所以我认为在数据方面,我们正在接近极限,唯一可以增加的数据是合成生成的数据。然后就像是什么秘诀呢?因为如果你有一个非常好的大型模型,你可以生成非常好的合成数据,然后继续提高质量。这就是为什么我认为在OpenAI,他们正在从训练缩放定律转向推理缩放定律。这是测试时间计算等等。所以我绝对相信这是未来的方向,而这就是我们正在做的,并且在推理方面做得很好。
主持人SWYX: 关于这一点,我有几个问题。你们计划分享你们的推理轨迹吗?
林乔: 这是一个很好的问题。我们还在讨论中。是的。
主持人SWYX: 但这仍然取决于。我想说的是,例如,SWE-Bench,如果你想被考虑排名,你必须提交推理轨迹。这实际上已经取消了一些我们过去客人的资格。例如O1在SWE-Bench上表现良好,但他们不想泄露这些结果。这就是为什么你没有在SWE-Bench上看到O1预览,因为他们没有提交他们的推理轨迹。显然这是知识产权,但如果你想更开放,那就是一种更开放的方式。所以你的模型不会是开源的,对吧?它将是你提供的端点。然后定价也与OpenAI相同。
林乔: 是的,这个,我实际上没有信息。一切发展得太快了。我们甚至还没有考虑过这个问题。是的,我应该准备得更充分一些。
主持人SWYX: 我的意思是,这是直播。能一边直播一边讨论真是太好了。还有什么其他方面你想要反馈,或者正在思考的?在关于这个新模型尚未做出决定的时候讨论它,感觉挺不错的。这将非常令人兴奋,并将产生大量的关注。
林乔: 没错。我非常期待看到人们将如何使用这个模型。Reddit上已经有关于它的讨论了,人们正在提出非常深入的医学问题。而一旦模型给出正确答案,就会让人感到惊喜。在内部测试中,我们还让模型生成什么是AGI(通用人工智能),它生成了一个非常复杂的DAG(有向无环图)思考过程。所以我们在内部测试中玩得很开心。但我更想知道人们将如何使用它,他们会尝试在哪些应用上测试它,这方面我们真的希望听到社区的反馈,以及关于哪些方面运作良好、哪些方面运作不佳、哪些方面运作良好但出乎意料以及他们认为我们应该改进哪些方面的反馈,这些反馈将非常有帮助。
主持人SWYX: 是的,我的意思是,自从发布以来,我一直是O1 Preview和Mini的生产用户。我想说它们的质量提升非常明显,以至于它们让之前的版本黯然失色,更是让之前的最先进技术看起来很糟糕。差异真的如此巨大。实际上,最重要的一点反馈或功能请求是,人们希望能够控制预算。因为现在在O1版本中,它有点自己决定其思考的预算,但有时你知道问题的难度,并且你希望告诉模型“在这个问题上花两分钟”,或者花一定的金额,可能是时间也可能是金钱,我不知道预算是什么。
林乔: 很有道理。我们实际上考虑过这个需求,在某个时间点我们需要支持它。虽然不是一开始,但这确实很有道理。
主持人SWYX: 好的,这是一个关于你们正在开展工作的引人入胜的概述。首先,我意识到我可能从未给过你这样的反馈,但我认为你们是我同意担任你们顾问的原因之一。因为我认为当你们第一次见到我时,我有点怀疑。我想,你们是谁?复制这个东西放在一起。这里有一台笔记本电脑。还有很多其他参与者。你们身处竞争非常激烈的领域。你们凭什么会赢?而我改变主意的原因是,我看到你们在交付产品。我认为你们的覆盖面非常广,团队规模却并不大。
是的,现在你们正在试图与OpenAI和其他所有人竞争。秘诀是什么?
林乔: 我认为是团队。团队是关键。
主持人SWYX: 哦,天哪。所以我无法复制什么东西?
林乔: 不。我认为我们都来自一种非常一致的文化,因为我们团队的大部分成员都来自Meta和其他许多初创公司。我们真的相信结果。第一是结果,第二是客户。我们非常注重客户。
我们不想为了采用而推动采用。我们真的想确保我们理解并为客户带来很多商业价值,并且我们非常重视他们的反馈。我们会半夜醒来为他们部署一些模型,为他们调整一些容量。是的,周末也一样,毫不犹豫。
所以,这就是我们团队的工作方式。团队的素质也真的非常高。我们正在招聘,并且发展非常迅速。如果您热衷于从事AI领域最尖端的技术工作,欢迎与我们联系。
主持人SWYX: 是的。让我们稍微谈谈客户旅程。我认为你们最著名的客户之一是Cursor。我们是第一个在播客中使用Cursor的,然后很明显,从那时起,他们就大获成功。因果关系不一定相关。但你们尤其致力于快速应用模型,你们是率先在生产环境中使用推测解码的人之一。也许可以谈谈与Cursor合作背后的故事?
林乔: 我想说,Cursor是一个非常独特的团队。我认为独特之处在于,该团队拥有非常高的技术水平。这毫无疑问。但他们已经决定,尽管许多构建编码解决方案的公司会说,“我要构建一个完整的堆栈,因为我可以”,但他们很独特,因为他们寻求合作。不是因为他们不能;他们完全有能力,但他们知道在哪里集中精力。对我来说,这太棒了。当然,他们想找到最好的合作伙伴。
所以我们一起花了一些时间工作。他们正在非常积极地推动我们,因为为了提供高质量的产品体验,他们需要低延迟。他们同时需要交互性和高质量。因此,在我们支持Cursor的过程中,我们扩展了很多产品功能。他们的发展如此迅速,我们迅速在多个地区进行了大规模扩展,开发了一个非常高强度的推理堆栈,几乎与我们在Meta所做的类似。我认为这是一次非常有趣的合作。
在这个过程中,建立了大量的信任,因为他们意识到这是一个他们可以真正合作并取得巨大成功的团队。这又回到了我们真正以客户为中心的事实,所有与他们合作的工程师都全身心地投入其中。花费了大量时间进行同步和讨论。我们不太喜欢开会,但我们的协作频道始终在线,所以你几乎感觉像是一个团队在工作。我认为这是真正的亮点。
主持人SWYX: 是的,对于那些不知道的人来说,Cursor基本上是一个VS Code分支,但大多数时候人们会使用这些模型。我实际上使用了大量的Sonnet,所以你们没有参与其中。不像你们托管Sonnet或与之有任何合作关系。你们参与的是Cursor较小的模型或他们自有品牌的模型,对吧?
林乔: 我不知道我能说什么,但他们没有说的事情也不便公开。
主持人SWYX: 我认为你们凭借每秒1000个token取得了巨大成功。还有更多空间可以突破吗?
林乔: 我们一直在努力突破。实际上,当我提到文件优化器时,对吧?所以,就像我们有一个独特的自动化堆栈,它是一刀切的。我们实际上很早就部署到Cursor了。基本上是针对他们的特定工作负载进行了优化。并且在该产品中取得了成功。它实际上可以被广泛采用。这就是为什么我们启动了一条名为文件优化器的独立产品线。因此,推测解码只是一种方法。而且这里的推测解码不是静态的。我们实际上写了一篇博客文章关于它。有很多不同的方法可以进行推测解码。你可以将小型模型与同一模型系列中的大型模型配对,或者你可以使用Eagle heads等等。所以不同的方法有不同的权衡。这真的取决于你的工作负载。然后根据你的工作负载,我们可以更好地调整Eagle heads或Medusa heads或小型大型模型对,以获得最佳的延迟降低。所有这些都是文件优化器产品的一部分。
主持人Alessio: 我知道你提到了一些其他的推理提供商。我想人们总是有的另一个问题是关于基准测试的。不同的平台性能不同。人们应该如何看待这个问题呢?比如,人们会说,“Llama 3.2 在 MMLU 上的性能是 X”,但也许你会走另一条路。也许有些提供商运行的是量化模型。人们应该如何看待他们应该关心你实际运行模型的方式,以及你所做的所有“魔法”与原始模型之间究竟有多大差异?
林乔: 好吧,有两个主要的开发周期。一个是实验阶段,在这个阶段他们需要快速迭代。他们不想考虑质量,他们只想尝试产品体验等等,对吧?所以这是第一个阶段。
然后,当产品看起来不错,他们想通过扩展来进入市场,这时质量变得非常重要,延迟和其他因素也一样重要。在实验阶段,重点是选择一个合适的模型,而不用担心其他任何事情。确保生成式AI也是你产品正确的解决方案。
然后,在实现产品与市场匹配后,三维优化曲线开始发挥作用,它包含质量、延迟和成本,以确定你应该落在哪个点上。对我来说,这纯粹是一个产品决策。对于许多产品来说,如果你选择较低的质量但速度更快、成本更低,并且不会影响产品体验,那么你应该选择它。
这就是为什么我认为推理是验证过程的一部分。验证并不止于离线评估;相反,它会持续通过 A/B 测试和推理进行。这就是为什么我们提供各种不同的配置供你测试哪个设置最佳。
这是一个传统的产品评估方法,产品评估还应考虑新的模型版本和不同的模型设置。
主持人SWYX: 我想具体谈谈几个月前一些主要竞争对手发生的事情。我的意思是,所有这些都是公开的。你对发生的事情有什么看法?也许你想澄清Fireworks是如何进行量化的,因为我认为很多人可能对它的看法已经过时了,或者他们没有阅读关于你量化方法的澄清文章。
林乔: 首先,我们很惊讶,没有任何预兆,就被点名批评了。通常情况下,我们并不期望这种情况发生。是的,在一篇公开的文章中,对我们的质量做出了某些解读。所以我真的感到很惊讶。这不是一种好的竞争方式。我们希望公平竞争。通常情况下,当一个厂商发布另一个厂商的结果时,比较结果都极其片面。如果我们也这样做,我们会责备自己,我们很乐意与第三方合作,进行最公平的评估。因此,我们对此感到非常惊讶,并不认为这是评估竞争格局的好方法。
说到量化,我们已经写了一篇非常详尽的博客文章来解决相关的解读问题。再次强调,没有人声称拥有完整的画面。我们有各种不同的量化方案,可以量化模型中非常不同的部分——从权重到激活,再到跨GPU通信。可以使用不同的量化方案,或者它们可以在整个过程中保持一致。最终,这是一个在质量、延迟和成本三个维度上的权衡。对于我们的客户,我们实际上让他们找到最佳的优化点,因为我们有一个非常全面的评估过程来识别该点。
但是,对于自助服务选项,只有一个点可以选择。没有可用的自定义选项。因此,当然,根据我们与许多客户的讨论,我们必须选择一个点。后来发布的结果表明,我们在质量指标方面实际上表现相当出色。因此,我将把质量或性能的评估留给第三方,并与他们合作,找到最公平的基准方法和方法论。但是,我不支持这种点名批评特定竞争对手并以偏见的方式进行批评的方法。
主持人SWYX: 另一个我想谈论的,最后一个关于竞争方面的问题。人们认为在托管开源模型方面存在价格战。我们讨论了市场的竞争力。你们是否打算在开源模型上赚钱?
林乔: 哦,绝对是的。所以,但是我认为,当我们考虑定价时,它真的需要与我们提供的价值相协调。如果价值有限,或者很多人提供相同的价值,没有差异化,只有一条路可走,那就是下降。所以通过竞争。如果我退一步来看,我们的定价更多的是与封闭模型提供商、API 进行比较,对吧?封闭模型提供商的成本结构更有趣,因为我们不承担任何训练成本。我们专注于推理优化,这就是我们不断增加许多产品价值的地方。这就是我们如何看待产品的。但对于闭源 API 模型提供商来说,他们承担了很多训练成本,他们需要将训练成本摊销到推理中。所以这就创造了一个非常有趣的动态,是的,如果我们在那里的定价相匹配,我想他们将如何赚钱。
主持人SWYX: 这非常非常有趣。对于听众来说,OpenAI 2024年,40亿美元收入,30亿美元计算训练,20亿美元计算推理,10亿美元研究计算摊销和7亿美元薪水。所以这就是说,我的意思是,大量的研发。
林乔: 是的,所以我认为问题基本上是使其归零。是的。所以这是一个非常非常有趣的动态,我们正在其中运作。但回到推理,对吧?所以我们,再次,正如我提到的,我们的产品是,我们是一个平台。我们不仅仅是一个单一模型即服务提供商,就像许多其他推理提供商一样,他们提供单一模型。我们有我们的自动化工具,可以高度定制你的推理工作负载。我们有一个复合 AI 系统,它可以显著简化你与高质量、低延迟、低成本的交互。所以这些都与其他提供商非常不同。
主持人Alessio: 人们不知道你们所做的工作中的哪些方面?我想人们会说,“好的,Fireworks,你运行模型非常快,你具有函数模型。” Fireworks 中是否有任何被低估的部分,更多人应该尝试?
林乔: 是的,实际上,一位用户在 X.com 上发帖,他提到,哦,实际上,Fireworks 允许我以相同的成本上传 LoRa 适配器到服务模型,并以相同的成本使用它。没有人提供过这个功能。
这是因为我们有一个非常特殊的特性;我们去年编写了 Multi LoRa。事实上,我们很长时间以来一直拥有这个功能,很多人一直在使用它,但它并不为人所知。
如果你发现你的模型不需要按需使用。如果你的模型是 LoRa,你可以上传你的 LoRa 适配器,我们会将其部署为一个新模型。然后你获得你的端点,你可以直接使用它,但成本与基础模型相同。
所以我很高兴用户为我们做营销。他发现了这个功能,但我们从去年就开始有了这个功能。我认为反馈对我来说是,我们有很多非常好的功能。
主持人SWYX: 我曾为贵公司提供咨询服务,我不知道你们已经发布了推测解码功能。
林乔: 我们去年就有了掌上抓取(palm catching)功能。我们有很多类似的功能,是的。所以,我认为这是个被低估的功能。如果你是开发者,正在使用我们的自助服务平台,请尝试一下。
主持人SWYX: 是的,LoRa 的功能很有趣,因为我认为你们,比如,人们为它增加额外成本的原因,并不是因为他们想收费。通常在普通的 LoRa 服务设置中,为加载这些权重并为此推理任务分配一台机器需要付出成本。你认为这为什么是成本?
林乔: 我们避免了这种情况。是的,这是一种我们称之为多 LoRa 的技术。我们基本上让许多 LoRa 适配器共享同一个基础模型。是的。基本上,我们显著降低了服务的内存占用。一个基础模型可以支持 100 到 100,000 个 LoRa 适配器。然后,基本上所有这些不同的 LoRa 适配器都可以共享相同的,比如将相同的流量导向同一个基础模型,而基础模型占据了主要的成本。
主持人SWYX: 你认为你希望从社区请求什么?或者在模型方面或工具方面,你认为应该有人去研究什么?
林乔: 是的,我们非常希望得到很多正在开始在 生成式AI 上构建应用或已经采用或开始考虑新用例的应用程序开发者的反馈,以便首先尝试 Fireworks。让我们知道它是否对您非常有效,您的愿望清单是什么,以及哪些方面不好用,对吧?哪些方面对您不起作用,我们将继续改进。对于我们的新产品发布,我们通常希望向一小部分人发布。通常我们先在我们的 Discord 上发布,让一组人先使用。所以请加入我们的 Discord 频道。我们有很多沟通在那里进行。同样,你也可以给我们反馈。我们将开始举办办公时间,让你直接与我们的开发者关系人员和工程师交流你的详细想法。
主持人Alessio: 你们正在大规模招聘。
林乔: 我们正在大规模招聘。我们正在招聘前端工程师、云基础设施工程师、后端系统优化工程师、应用研究人员,比如做过后期训练,做过大量微调的研究人员等等。
主持人SWYX: 就这样。谢谢。太棒了。感谢你们的邀请。
关注公众号后设🌟标,掌握第一手AI新动态