👇关注公众号后设🌟标,掌握第一手AI新动态
本文访谈内容整理自Databricks CEO阿里·戈德西接受Newcomer Youtube频道专访,公开发表于2024年11月21日。原始内容参考:https://www.youtube.com/watch?v=HkW4iM0JhFo
Databricks CEO阿里·戈德西接受Newcomer专访
★内容导读:
本文主要围绕人工智能时代的数据业务展开,阿里·戈德西表达了以下主要观点:
规模法则的转变: 规模法则仍然有效,但呈对数增长,未来提升幅度有限。这将导致范式转变,从追求更大模型转向在现有模型上进行创新,降低成本,分散部署。 推理的重要性提升: 推理将变得比训练更重要,甚至训练本身也将成为推理的一部分。这将催生更多专注于推理的芯片厂商,打破巨头垄断。Nvidia虽然领先,但将面临更激烈的竞争。 领域智能和数据优势: 未来的AI发展将更加领域化和专业化,拥有特定领域优质数据的企业将拥有巨大优势。这将为众多企业,而非仅限于巨头,带来机遇。 杀手级应用的出现需要时间: 虽然杀手级应用将出现,但其开发需要时间,人们应降低预期。成功取决于产品体验的完善,而非仅仅是模型训练本身。既有大型科技公司,也有新兴公司将参与其中。 对微软Ignite大会的看法: 微软战略正在拓宽,不再依赖单一合作伙伴,而是与多方合作,包括Databricks。 对Databricks未来的担忧: AI领域过高的预期、保持公司增长率、以及公司内部的有效执行是其主要担忧。 对Snowflake的竞争和Tabular收购: 收购Tabular公司是激烈竞争的结果,此举能够提升Databricks的市场覆盖率和效率。 对AI未来发展的展望: 虽然可能存在“创新消化阶段”,但现有模型的能力远未被完全利用,AI领域仍有巨大的创新空间,关键在于如何构建应用并改变用户行为。
阿里·戈德西简介
阿里·戈德西(Ali Ghodsi)是瑞典裔美国籍的计算机科学家和企业家。他在分布式系统和大数据领域有着深入的研究和实践经验。戈德西是Databricks的联合创始人和CEO。
Databricks是一家专注于数据和人工智能(AI)的公司,推出了基于湖仓一体架构的数据智能平台。该平台结合了数据仓库和数据湖的功能,帮助企业管理和使用结构化和非结构化数据。Databricks还开发了Delta Lake、MLflow和Koalas等开源项目,用于数据工程、数据科学和机器学习。目前,Databricks已成为全球领先的数据和AI公司之一。
访谈全文
主持人Deirdre Bosa: 大家好,你们能听到我吗?是的。首先,我要说能回到这里是我的荣幸。我们是Eric和Riley。你们在这方面做得如此出色,令人难以置信!看着它发展壮大真是太棒了。Ali说他参加过在办公室举办的第一届活动。这次活动规模如此之大,真是太令人惊叹了!是的,规模大了很多,我印象非常深刻。很高兴在人群中看到一些熟悉的面孔。Ali,我很高兴能和你一起在这里,因为你总是坦率直接,而且很有见地。他答应我,他会像往常一样坦率、有争议和富有煽动性。好吧,标准很高。说到这里,让我们从今天的一个主要话题开始,也就是所谓的“数据壁垒”、规模法则以及人们似乎都在重新思考未来几年人工智能的进步将会是什么样子。你的看法如何?
阿里·戈德西: 我认为规模法则确实是成立的,只是它是对数的。在规模法则上向右移动更多,成本会变得太高。在过去的十年里,我们在计算能力上实现了大约一亿倍的提升。在接下来的十年里,我们不可能再实现一亿倍的提升;也许我们可以达到一千倍。所以这不可能实现。因为这是一个对数曲线,我们无法从规模法则中获得同样惊人的结果。
这就需要一个范式转变,而这个转变实际上正在发生。这意味着我们不会再等待下一个GPT-5,下一个更大的巨型模型。相反,我们将专注于在现有模型之上做的事情。我认为这对在座的每个人来说都非常令人兴奋,因为它意味着你不需要那么大的预算。
你不需要那些拥有超高速网络的集群,你在其中运行所有程序。相反,你可以分散它们,在各个地方部署多个集群。你不需要进行那么多的同步。我相信这种范式转变对于这里的团队来说非常重要和令人印象深刻。这就是未来的方向;方向就在这里。
主持人Deirdre Bosa: 我想谈谈其中的机遇,但首先你提到成本会有所不同,你可以用更少的资源做更多的事情。如果我们正处于这个阶段,这对英伟达(Nvidia)这样的硬件厂商意味着什么?他们正准备发布财报。
阿里·戈德西: 我认为,每个人都说过推理比训练更重要。而这种新的范式转变意味着,训练实际上也变成了推理游戏。例如,你使用现有模型生成更多数据,并利用这些数据,并用它们做一些有趣的事情。所以我认为推理正变得越来越重要。许多人都预测过这一点,但在这种新的范式中,这种情况会更加明显。我认为这也意味着,你会看到更多专门的厂商会制造非常擅长推理的芯片。所以,我认为这非常令人兴奋。过去只有三家实验室拥有训练巨型模型所需的资金,而其他所有人做的任何事情都会变得无效,因为下一个出现的巨型模型将会取代现在这里每个人正在做的一切,这种情况不再成立了。
主持人Deirdre Bosa: 令人兴奋的时代。在现有基础上进行创新。在这种情况下,英伟达的命题是否会发生变化?当转向推理时,竞争对手是否会增多?
阿里·戈德西: 他们的竞争对手会增多,就像你知道的,资源如此匮乏,价格如此之高,当然会增加竞争对手。但他们是一家了不起的公司,遥遥领先,而且他们不仅仅是制造这些芯片,他们拥有网络,拥有完整的技术栈。所以我认为他们将继续保持非常强的竞争力,但我认为,我相信Jensen也知道,竞争将会越来越激烈,不会只有他们一家独大。
主持人Deirdre Bosa: 好的。让我们谈谈其中的机遇。你提到这对在座的许多人来说都是机遇,这可能正中他们的下怀。再多谈谈这个。萨蒂亚·纳德拉昨天在Ignite上也说了类似的话,适度的怀疑是好事,因为它会带来更多创新。你也是这么想的吗?
阿里·戈德西: 是的,我的意思是,正如我所说的,许多人正在研究的想法会被下一个更大的模型所取代。下一个更大的模型会自动完成你一直在做的事情。这种情况将不再成立。因此,它变得更加领域化。领域智能将变得更加重要,你将在特定领域进行人工智能。例如,你在某个特定领域、某个特定公司或某种类型的查询或任务方面最优秀。你知道,可以处理你拥有的特定数据的人工智能。数据优势将比以往任何时候都更加重要。例如,与其说,“好吧,我们正在对整个网络进行巨型模型训练”,不如说,“我们能否在这个特定狭窄的领域拥有真正优秀的数据?我们仅仅用这些数据能做什么?”所以基本上就是更专业化。我认为专业化对在座的每个人来说都是一个巨大的机遇。
主持人Deirdre Bosa: 我们最终会看到更多杀手级应用,更多用例吗?
阿里·戈德西: 我认为杀手级应用将会出现。我一直都说,我们会看到它们。只是人们太心急了,他们期望在2023年看到所有杀手级应用。然后就只有ChatGPT出现了。所以人们非常失望。但开发这些应用需要时间。你知道,如果你想要拥有世界上最优秀的医生,他看过一百万名病人,那么需要一段时间才能弄清楚那个界面,获得用户等等。或者,如果你拥有一位律师,在座的每位都能以一两美元的价格使用,这需要一些迭代。这些都是利用生成式人工智能的令人惊叹的产品体验。它不仅仅是训练模型。它还包括端到端的整个体验。这需要两三年时间。所以我认为我们可能在一两年后开始看到它们。我的意思是,我认为你们很多人都在致力于这些,但是我认为如果你们真的做到了,他们会说,好吧,它们还不够完善。质量仍然是,可靠性只有70%或80%。所以,你知道,我们还需要做一些工作,但这将会非常棒,它将改变游戏规则。
主持人Deirdre Bosa: 是这个房间里的人会创造它,还是大型科技公司会创造它?我们是否会首先从谷歌、苹果或微软等已经拥有巨大分销网络的公司那里看到它?
阿里·戈德西:我认为我们将看到一些大型公司利用这项技术,但我相信在座的各位,以及即将出现的新兴公司也会参与其中。你知道,我的一个玩笑是,这就像1997年,当时人们认为搜索领域将被AltaVista或雅虎等公司主导,而如今这些公司几乎都不复存在了。所以这里的情况也会一样。1997年的时候,没有Facebook,没有Twitter,没有Airbnb。所以将会出现一些我们从未想过的新领域,这会让我们感到震惊。比如,我根本没想过那个类别会成为一件事,但显然它已经成为一个大生意,一个巨大的市场,我们甚至都没有把它当成一个巨大的潜在市场规模(TAM)。哇,那家公司现在估值已经超过千亿甚至接近万亿了,我简直不敢相信。谁能想到会发生这样的事呢?我认为这些想法会有些出人意料,在座的各位以及其他地方的人都会有这样的想法。所以肯定会有新兴公司出现。
主持人Deirdre Bosa:当然,我想谈谈Databricks。不过,还有一个关于大型科技公司与一些初创公司之间关系的问题。你对昨天的Ignite大会整体有何看法?微软花了较长时间才提到他们与OpenAI的合作关系,以及这种关系是如何发展变化的,你认为它将走向何方?
阿里·戈德西:是的,我的意思是,我不知道那项合作的确切细节,但我认为,如果你看看微软的战略,他们正在拓宽范围。他们收购了Inflection,由Mustafa领导,正在构建自己的模型。他们与OpenAI合作,但也全面参与了Meta和开源项目。我认为,他们还与我们公司在AI方面进行了非常密切的合作。我们实际上也首次被提及为他们AI战略的一部分。我认为他们只是在扩大规模,所有这些都是有道理的。他们不想把所有的鸡蛋都放在一个篮子里。
这在头一两年对他们帮助很大。那是一个很棒的篮子。
主持人Deirdre Bosa:有报道称,Databricks正在以610亿美元的估值筹集70亿至90亿美元资金,这是一个相当大的飞跃,这真是个好消息。
阿里·戈德西:就这些吗?我的意思是,我们一直在与投资者进行沟通。我可以说,目前还没有最终确定。所以很难置评。通常情况下,在过去的几年里,我们会花更多时间来敲定事情,然后再发表评论。
但是你们在获取泄露信息方面越来越厉害了,这也很正常。这实际上使得问题更加棘手,因为更多的人会联系你,并希望和你谈谈。试图推掉资金很难,对吧?真的很难,非常非常难。
所以,是的,我们对此无法发表评论。我只能说,增长阶段、后期阶段和交叉阶段似乎有大量的资金——筹集了巨额资金。似乎这些资金没有多少去处。
所以,这并不是关于Databricks的问题;而是没有地方可以投资,除了也许是Databricks、Stripe,或者OpenAI。好像只有两三四个地方能够接受这些资金。如果你想投资10亿美元,除了少数几个地方,几乎没有其他地方可以投资了。
主持人Deirdre Bosa:如果有人愿意向你们提供资金,请举手。
阿里·戈德西:别拿太多钱,我告诉你,这是一个错误。
主持人Deirdre Bosa:好吧,你不会评论的报告说,它基本上是筹集资金来让持有限制性股票单位(RSU)的一些员工套现。正如你所说,后期增长阶段资金充裕。我知道你可能已经厌倦了我每次都问你这个问题,但我实在忍不住。这对最终的IPO意味着什么?如果在后期阶段如此容易筹集资金,你将如何考虑这个问题?
阿里·戈德西:是的,我会给你一个诚实的答案。我诚实的答案是,我希望Databricks在未来十年或二十年内尽可能地成功。这就是我努力的目标。所以我并没有真正以IPO为目标。如果我们要进行IPO,最早也要到明年年中左右。所以,你知道,明年可能会发生。
主持人Deirdre Bosa:但许多上市公司CEO都说,上市确实能帮助他们为未来10年的发展做好准备。
阿里·戈德西:是的,很多人这么说。我的意思是,你知道,这取决于你如何运营你的公司。有些CEO,我不做评论,当我观察他们如何运营公司时,他们会烧掉大量的资金,想做什么就做什么,是的,对于这些公司来说,一些纪律性会很好。
但我们已经是一家非常谨慎的公司了。我们已经像经营上市公司一样运营公司。我们正在进行上市公司的审计。我们的董事会基本上已经准备好上市了。它通过了纳斯达克和纽约证券交易所等等的所有障碍。所以我们运营的方式有点像上市公司。我的意思是,我们所有在其他上市公司董事会任职的董事会成员都说,你像上市公司一样运营公司。有时你的运营比其他一些上市公司更有条理。
所以我认为对我们来说,这并不一定如此。只是,我认为有一些权衡。我认为,如果上市,可能会出现一些短期主义倾向,而我对这一点并不感到兴奋。但另一方面,很多人希望交易我们的股票。所以,人们希望拥有流动性,希望能够进行交易,无论是投资者、员工还是其他人,这都是有道理的。
对。所以,这迟早会发生。我只是没有一个确切日期。好吧,我的意思是,正如我所说,也许是明年。可能会发生。
主持人Deirdre Bosa:你说你对很多事情都感到担忧。是什么让你彻夜难眠?
阿里·戈德西:好吧,有很多很多事情。其中一件可能是AI领域过高的预期对我们所有人都不利。我认为如果情况更稳定一些会更好。AI领域的疯狂估值和疯狂投资,你可能认为这对我们有利,但实际上对我们不利。我的意思是,成功=现实-预期。如果预期非常高,那么很难用现实去超越它们。
所以,你知道,这是一个担忧:如果情况开始出现变化,例如出现泡沫破裂,你该如何确保自己处于一个良好的状态?也许不会出现这种情况,我们会一切顺利,并且能够在这种情况发生之前实现你之前谈到的用例。但如果真的发生了,我们希望公司能够处于一个良好的状态。
你知道,我们自己的执行情况,比如我们增长——我们分享我们拥有超过60%的增长率。我不想失去这个增长率。一旦你失去了增长率,它实际上就很难再回来了。所以我们正在尽一切努力保持这个增长率,而且在我们这个规模下做到这一点很难。
所以,你知道,拥有8000名员工,确保整个机器在这个规模下继续运转,这会让你彻夜难眠。
主持人Deirdre Bosa: 好的,说得也对。时间过得真快。我想确保我们能谈到Snowflake。哦,好的。这是你和他们的最爱话题。它们会让你晚上睡不着觉吗?
阿里·戈德西: 不会,实际上不会。曾经有一段时间会。
主持人Deirdre Bosa: 曾经会,但现在不会了?Tabular是如何融入其中的?收购那家公司让你睡得更好吗?你能分享一下这其中的经过吗?
阿里·戈德西: 是的,我认为那是一个竞争激烈的局面。
主持人Deirdre Bosa: 与Snowflake竞争?
阿里·戈德西: 多家厂商都非常感兴趣。我的意思是,你猜得挺准的。我们确实非常想收购那家公司。为什么?因为,你知道,过去十年,人们一直把他们的数据锁定在这些数据仓库中。而我们一直在说,不要那样做。不要把你的数据给他们,不要把你的数据给我们。把它保存在开放的标准中。但后来,关于哪个标准的问题引发了激烈的争论。是我们提出的标准,还是Tabular公司提出的标准。所以,拥有这两个标准并能够覆盖整个市场对我们来说意义重大。你知道,这会让我们一夜之间立即提升效率,突然之间,我们可以去接触那些以前不会与我们合作的公司,向他们推销产品。所以我们绝对想要拿下它,而且,你知道,能成功收购它真的非常令人兴奋。
主持人Deirdre Bosa: 你说竞争很激烈。是的。你们是怎么拿下的?你们做了什么?
阿里·戈德西: 无可奉告。我可以说,竞争非常非常激烈。
主持人Deirdre Bosa: 好吧,最终,你们赢得了这场“街头霸王”的比赛。这才是最重要的,对吧?我认为就在刚才,Snowflake和Anthropic发布了一则新闻稿。Anthropic将把其云端3.5模型引入Snowflake平台。这对你们意味着什么?
阿里·戈德西: 我们与所有这些模型提供商,包括Anthropic和OpenAI,都有合作。它们在Databricks平台上运行,非常受欢迎。但是人们也在Databricks上使用开源模型。所以我们与所有这些公司都有合作,并确保我们能进行集成。还会有其他的模型出现。我们实际上可以提炼、定制和构建完整的AI系统。尤其是在今天,人们都对构建代理感兴趣,而这些模型只是你正在构建的代理系统的一个组成部分。所以我们相当地具有包容性。我认为,即使Snowflake有一个模型,我们也可能能够在Databricks平台上提供服务。
主持人Deirdre Bosa: 最后一个问题,回到我们谈话的开头,如果技术进步正在放缓,有点停滞不前,你说我们正处于一个创新阶段。我们真的处于创新阶段吗?我刚看到有人谈到“消化阶段”,这可能不一样,对吧?这可能意味着泡沫中的一些空气正在排出,资金可能减少了。是什么让你认为,你知道,这会继续下去?
阿里·戈德西: 也许是创新消化阶段。我的意思是,我认为现在的情况是,如果我们现在停止,比如我们说,“嘿,核心模型能力上不能有任何新的进展”,我认为我们仍然只应用了现有能力的1%。我只是随便举个例子,它们拥有的能力可以应用到如此多的应用中,然后让地球上所有的人开始使用它,这就像能从中获得巨大的杠杆作用。
当然,模型的能力并没有停止发展。我们开发这些模型的方式正在发生范式转变。所以,我认为AI方面还有很多很多创新。那么,我们该如何构建这些应用程序呢?正确的形式是什么?一旦我们掌握了这一点,最大的问题是如何让人们使用它?如果地球上没有人愿意接触这些东西,不是因为他们不喜欢它,而是因为他们正在做他们昨天做的事情,这就是我们所做的。我们有习惯。我们醒来,我们做的事情和昨天一样。那么,我们如何改变他们的行为呢?我认为这实际上需要数年时间。
所以,我认为我们面前还有很多很多令人兴奋的事情,但是,也许那些期望所有投资回报都能在2023年和2024年实现的人,也许他们应该调整一下他们的预期。是的,所以也许现在确实有一些泡沫正在消退。
主持人Deirdre Bosa: 你总是能带来现实的一面,总是如此富有洞察力。Ali,非常感谢你。非常感谢。
关注公众号后设🌟标,掌握第一手AI新动态