红杉|实时AI游戏Oasis掌门人迪恩:追逐裸金属级别的极致性能、定制专属CUDA内核和模型架构

文摘   2024-11-14 09:02   浙江  

👇关注公众号后设🌟标,掌握第一手AI新动态

本文访谈内容整理自Decart公司CEO Dean Leitersdorf接受红杉资本 Youtube频道专访,公开发表于2024年11月13日。原始内容参考:https://www.youtube.com/watch?v=GuenqZiA1NA

迪恩·雷特斯多夫接受红杉资本专访

内容导读

本次专访中,迪恩·雷特斯多夫(Dean Leiterstorf)主要表达了以下观点:

  1. Oasis的意义超越技术本身: Oasis 1 (目前版本) 实现了实时交互式视频模型,但这只是第一步。Oasis 的最终目标是像一个“魔法镜子”,能够实时响应用户的语音指令和动作,将用户的想象力直接转化为视觉呈现,连接思维和现实,创造前所未有的体验。这并非解决现有问题,而是突破人机交互的根本限制。
  2. 克服限制而非解决问题:  许多公司专注于解决特定问题,而Decart的目标是克服人机交互的根本限制,即沟通障碍。这如同个人电脑的出现,并非解决某个单一问题,而是开启了无数可能性。这种机会十年甚至十五年才出现一次。
  3. 实时推理的挑战与实现:  实现Oasis实时推理的难度极高,需要同时优化模型架构和系统层面(例如,编写自定义CUDA内核,甚至重写PyTorch的垃圾回收机制)。这并非简单的硬件升级就能解决,需要在模型和系统层面进行全面的优化。模型本身类似于Sora,但prompt变成了用户的动作和之前的帧。
  4. 垂直整合的优势: Decart选择垂直整合,从CUDA内核到模型设计、训练和最终体验,全部自主掌控。这不仅降低成本,更重要的是能以极快的速度迭代和创新,领先于只关注应用层的竞争对手。这与Google和NVIDIA早期成功模式类似,通过底层优化获得巨大的竞争优势。
  5. 垂直整合带来的实际挑战:  垂直整合并非易事,需要应对各种复杂的系统问题,例如集群的不稳定性、硬件故障、以及各种难以预料的错误。迪恩分享了训练Oasis过程中遇到的诸多挑战,以及他们如何克服这些挑战,最终实现了20小时内完成模型训练(远快于行业平均水平)。
  6. 新型网络效应和长期竞争优势:  短期内,垂直整合是Decart的核心竞争优势,允许其快速迭代和占领市场。长期来看,除了技术优势,他们也需要建立新的网络效应或品牌效应,例如通过TikTok等平台建立广泛的品牌认知度和用户口碑,从而构建新的护城河。 硬件始终是最佳护城河。
  7. Decart的长期愿景:  Decart的长期目标是成为一家“生成体验公司 (GX)”,创造各种基于AI的全新体验,这将影响全球每个人的生活。 他们认为,在未来几年内,基于生成式AI的全新体验将会诞生出下一个万亿美元级别的公司。

Decart CEO迪恩·雷特斯多夫和Oasis简介

迪恩·雷特斯多夫(Dean Leitersdorf)是Decart公司的联合创始人和CEO。

Oasis,是第一个可玩的、实时的、开放世界的 AI 模型——它是交互式视频游戏,是由Transformer逐帧端到端生成的。Oasis 接收用户键盘和鼠标输入,并在内部生成实时游戏,模拟物理、游戏规则和图形。该模型学会了让用户四处移动、跳跃、拾取物品、破坏方块等等,所有这些都可以通过直接观看游戏来做到。Oasis建立了模拟更复杂的交互式世界,从而取代经典的游戏引擎,为人工智能驱动的未来而生。

访谈全文

主持人肖恩:大家好,我是肖恩·麦圭尔,我是红杉资本的合伙人。今天,我和我的合伙人索尼娅·黄将采访迪恩·莱特斯多夫。迪恩是一位才华横溢的年轻人。他在以色列和美国之间长大。他是以色列理工学院有史以来获得博士学位最年轻的人,23岁就获得了博士学位,至少在他弟弟21岁获得博士学位之前是这样。

Decart 致力于提供令人愉悦的 AI 体验,真正让人们以以前从未可能的方式与他们的想象力以及他人的想象力互动。为此,他们完全垂直整合,从 CUDA 内核这样低级的层面到设计他们自己的模型、训练模型,最终提供体验,都进行了优化。在接下来的几个月里,我们将看到他们推出一些非常令人印象深刻的产品。

主持人索尼娅:迪恩,感谢你今天加入我们。今天早上我刚玩了Oasis,玩得很开心。所以让我先问一下Oasis,一个完全可玩的人工智能游戏引擎。它是什么?你为什么发布它?

迪恩:关于Oasis。几周前我们发布了Oasis。从技术的角度来看,令人难以置信的是,这是第一个真正实时运行的视频模型,你可以根据用户的操作与之互动。你可以四处移动,破坏方块,也可以放置方块。所以我们得到了一个没有游戏引擎的好游戏。

为什么这实际上有趣呢?为了回答这个问题,忘记Oasis 1吧,想想Oasis 3。想象一下,暂时先抛开技术。想象一下你正在照镜子,好吗?你有一面可以和你对话的神奇镜子。你可以告诉它做一些很酷的事情。例如,你可以说:“嘿,我在这里,这是我的手,我想拿一把剑。”你看着镜子里的自己,砰,镜子里的你的手上出现了一把剑。

你四处移动你的手,剑也跟着移动。你可以说:“不,不,不,让这把剑更大一些,让它变成蓝色”,它就会改变。你可以说:“好了,现在把我变成《权力的游戏》里的角色。”你周围的一切都会变成《权力的游戏》的世界。然后,你得到一个王冠等等。你甚至可以想要你的王冠改变一下。你开始跳跃和四处移动,镜子会相应地做出反应。

这很有趣。现在,它之所以有趣,是因为它是一种与地球上以前任何体验都完全不同的体验。它允许我们通过我们看到的屏幕来表达我们的想象力它连接了两件事:我们心中所见和我们眼中所见

这就是我们的方向。一句话来说,生成式人工智能如何真正让我们将想象力与我们在屏幕上看到的东西联系起来?有了它,我们可以探索以前从未探索过的世界。它有可能改变一切,从我们今天无法实现的应用到我们与计算机或硬件的交互方式。

主持人索尼娅: 我很喜欢这个镜像模型。让我们更深入地探讨一下。你想用它做什么?这是个社交媒体项目吗?你是在开发游戏吗?还是在构建世界模型,一个交互式世界模型?我该如何理解笛卡尔、Oasis这些概念呢?

迪恩: 让我问你一个问题,ChatGPT解决了什么问题?作业。很好,还有什么?它使与电脑交流更容易。

简而言之,ChatGPT并没有解决任何特定问题。它能帮助你更好地完成作业,帮助你撰写电子邮件,帮助你总结信息。没错,它没有解决某个问题,而是克服了一些根本性的限制,这正是Sean所说的:它克服了人机之间的沟通障碍。电脑使用结构化语言,而人类使用非结构化语言或具有复杂结构的语言,大型语言模型(LLM)正好弥合了这一差距。

我让电脑和机器用我们都能理解的语言进行交互。仅此一点,一旦你拥有了这一点,就能在此基础上解决一百种不同的问题。因此,你从镜像模型或交互式生成视频中获得的是克服沟通障碍的能力,这不仅仅局限于文本,也包括我们所能看到的东西。

现在,电脑将能够像我们一样看待世界,并且能够以我们能够理解的方式向我们展示世界。你解决了这个问题,就构建了一个平台,允许你在此基础上创造一切,从下一代Snapchat或TikTok到战斗机飞行员的模拟器,都可以。好吗?这就是这里最酷的地方。

你知道,现在是2024年,我认为我们目前最有趣的事情之一就是,当你有机会构建一些不解决问题而是克服限制的东西时,去创办一家公司

99%的公司都在解决问题。当你看到那些向红杉资本或其他风投公司推销的公司时,他们会从“这是一个问题,这是一个多么大的问题,这就是我们的可寻址总市场(TAM),以及所有一切,这就是我们将如何解决这个问题”开始。通常,前两句话保持不变;否则,你称之为战略调整(pivot),对吧?你会说,“好的,这就是我正在解决的问题。”如果你改变了你要解决的问题,你称之为战略调整。

你可能会500次地改变你解决问题的方式。这就是99%的公司的情况,这也是你在任何一年都能做到的事情。历史上有一些时刻,最近,大约每十年,或者15年一次,你实际上有机会构建一些不解决问题而是克服限制的东西。

让我换个方式问你:Mac是消费产品还是企业产品?

它是硬件公司还是软件公司?它解决了什么问题?好的。如果你试图列出个人电脑解决的问题清单,你会列出从游戏到Excel的一切。这就是它的好处,你正在构建一个令人难以置信的技术,你将能够以多种不同的方式将其产品化。

主持人索尼娅: 是的,我喜欢这一点。你所构建的东西中最酷的事情之一是,据我所知,里面没有游戏引擎。你觉得这意味着什么?例如,你认为游戏引擎是过去的东西吗?这意味着什么?

迪恩: 游戏引擎的设计目的是为了促进一个人创建世界以及另一个人与该世界互动。这个核心目的不仅适用于电子游戏,也适用于电影以及游戏引擎的其他应用,例如虚幻引擎,它越来越多地用于电影制作。这种类型的技术为创作者提供了宝贵且一致的环境,允许进行精确和准确的世界构建。然而,这个过程可能非常耗时,用户常常希望修改现有游戏以满足他们的偏好。

Modding(修改游戏)的概念已成为游戏文化的重要组成部分。例如,有一个mod允许玩家将口袋妖怪加入我的世界,创建一个口袋妖怪在游戏中漫游的互动体验。这说明了用户固有的愿望,即自定义和转换他们参与的平台。Mod的吸引力在于它们能够以创造性和意想不到的方式增强用户与游戏环境的互动。

此外,随着AI技术在游戏环境中的发展,互动的潜力也在扩大。用户只需请求更改——例如将场景转换成以艾莎为主题的世界或添加一只飞象——游戏就会实时适应。这些元素不仅会在视觉上呈现,而且还会具有互动性,使用户能够以有意义的方式与它们互动。

展望未来,如果这些进步能够取代传统的游戏引擎,那么新的系统将需要提供用户友好的编程功能。创建和操纵游戏世界的能力应该能够让个人设计环境,同时允许其他人无缝地与它们互动。这一趋势即将到来,它有望通过自然语言而不是传统的编码提供更轻松的编程体验。

总而言之,游戏引擎和AI集成的发展势必会彻底改变Modding。我们可以预期Modding将以惊人的速度发展,为玩家带来更具创新性和互动性的体验。

主持人肖恩:  为了更深入地探讨技术细节,这是我见过的第一个具有实时推理的视频模型。实时推理中涉及哪些方面?这有多难?请给我们介绍一下其中的要点。

迪恩: 如果我们回到三四个月前,也就是夏天,我不记得这篇文章发表在哪里了,但有一些标题是关于,哦,当英伟达的Blackwell芯片问世时,我们将获得实时视频。好的?Hoppers无法做到这一点。H100也无法做到。我们必须等待英伟达的下一代产品。我想我从很多不同的来源都听说了这件事。夏天有两周时间,每个人都因为某种原因这么说。

好吗?不,H100实际上可以做到,好吗?要做到这一点,你必须同时做两件事。你必须改变模型本身的很多东西。并非每个视频模型都能实时运行。你必须以不同的方式训练模型。架构需要有所不同。现在,这不是重大的架构变化,但你确实需要做出改变。

另一方面,你还必须做很多系统层面的事情。你实际上必须编写你自己的CUDA内核。我们抛弃了PyTorch的垃圾收集器,并从头开始编写了一半。好的。你真的必须在系统层面编写所有内容才能实现这一点。

所以,如果你只做这两件事中的一件,你将不得不等待其他人为你完成另一半。如果你只做系统层面的工作,那么你将无法实现这一点,因为你将没有一个能够以这种方式交互的模型。如果你只做建模方面的工作,那么你将没有系统层面的支持来使其实时运行。

主持人索尼娅: 你能简单介绍一下模型的工作原理吗?比如,它是基于Transformer的吗?它类似于Sora之类的模型吗?你的模型构建在什么基础之上?

迪恩: 是的,长话短说,它和世界上的其他模型完全一样,只是提示词是用你的动作而不是文本。这是理解它的最简单方法。想想文本转视频模型,对吧?你用Sora输入一句话,就能得到一段视频。这里也是一样的,只是你的提示词是你的键盘操作和之前的帧,它会生成下一帧。

主持人索尼娅: 好的,那么你们是如何获取动作和视频之间的数据的呢?

迪恩: 是的,你确实需要进行一些预处理步骤,而普通的视频模型不需要这些步骤。例如,你必须提取原始游戏录像,并在每个步骤中标记正在执行的动作。所以,你知道的,我们重新训练了一个小型模型来做这件事。它实际上不需要太多数据,你可以用一个不需要太多示例的小型模型来解决这个问题。所以你可以让我们的团队玩一会儿,录制下来,然后得到一个小型模型,再用它来标记你所有的数据。

主持人索尼娅: 非常有趣。你们是构建了一个世界模型,还是纯粹的像素表示?

迪恩: 很好。它最棒的地方在于它是纯粹的像素表示。现在让我们把它与你刚才提到的世界模型、3D建模以及AI中的其他东西进行比较。十多年来,一直存在一个普遍的问题,即是否应该端到端地解决问题,或者采用现有的工作流程并提高其效率

解决这个问题可能有两种方法。你可以说:“游戏引擎已经存在了,Unity和Unreal都很棒,让我们直接接入这个工作流程吧。”例如,我们可以构建文本到3D模型,我描述一头大象,然后我得到一个大象的3D网格,它将嵌入到Unity、Unreal或你使用的任何游戏引擎中。我将此与端到端解决方案进行比较,最终,我需要显示内容的屏幕,并且它需要能够工作。人们看到他们的电脑屏幕,触摸他们的键盘并移动鼠标,这就是你的界面。你从按键到帧来解决这个问题。

显然,这两种方法是相互竞争的方向。随着时间的推移,我认为它们之间会有一些融合,因为从技术角度来看,它们各自都有自己的优势。第一种方法在时间上更一致;更容易说,“哦,这是这个物体,这就是它的样子”,当它两小时后回来时,它看起来会完全一样。另一种方法,端到端像素或在像素空间中工作的扩散模型,更容易使用。它更灵活;你可以说,“哦,不,不,改变大象的尾巴;它太大了”,或者你实际上可以以更动态的方式实时编辑它。

长期来看,我认为这两者最终会融合。如果我们大致规划一下,今天我们实际上只有提示词到像素、按键到像素。理论上,在未来两三年内解决这个问题的正确方法是拥有两个模型。一个模型将基于Transformer,因为Transformer的表现更出色。你将拥有一个负责保持游戏状态的模型,这与像素无关;它就像一个大型语言模型。它只是获取当前状态,处理新用户的操作,并输出对该状态的更改。第二个模型将获取该状态并将其渲染成像素。

这看起来是合理的融合方向,因为它将兼顾世界模型和扩散模型的优势

主持人索尼娅: 你们是想构建这两个模型吗?

迪恩:  当然。是的,绝对会。

主持人肖恩: 我喜欢这个想法。

迪恩: 我要说的是,我们还差一些距离。达到那个阶段还需要一些时间。

主持人肖恩: 对我来说,真正引起我关注Dean和Decart的一点是,他们雄心勃勃地希望实现完全垂直整合。这些人真的了解,他们了解电子如何在逻辑门中移动,甚至像替代逻辑门,以及如何在比汇编更低的级别表示它们,你知道的,如何在汇编CUDA内核中进行更改,他们真的从电子到你的眼睛看到的像素都考虑到了,并且他们在各个级别都在进行优化,我认为通过这样做,我认为他们将始终比那些只关注应用层的公司拥有10倍甚至更多的优势。

主持人索尼娅: 实际上,谈谈这个,因为Sean喜欢谈论这个。我认为反驳的论点是专业化,对吧?英伟达有10000名非常聪明的人在做这件事,选择你喜欢的公司。你应该专注于构建最佳的用户体验和病毒式循环之类的东西。所以谈谈你们垂直整合的决定。

主持人肖恩: 让我来说几句,因为Dean不像我们这样可以夸耀自己。但我一生都在研究商业模式。从年轻的时候起,它就是我的一个爱好。对我来说,谷歌是有史以来最令人惊叹的公司之一,拥有最卓越的商业模式之一。我在谷歌工作了几年,我觉得人们经常对谷歌真正的优势有错误的理解。就我而言,我也认为人们误解了英伟达今天的优势。

对于谷歌,显然,谢尔盖和拉里发明了PageRank。PageRank是一种漂亮的算法;它代表了一种深刻的见解,但却易于实现。它基于一个简单的图论思想,并且源于一篇公开发表的论文。一旦PageRank被引入,每个人都很快地复制了它。在我看来,谷歌的真正优势在于其创始人分布式系统和底层系统优化的专业知识。他们很早就意识到其他搜索引擎正在购买昂贵的Sun Microsystems服务器机架来实现容错。相比之下,谷歌意识到它可以使用廉价的消费级硬件,这些硬件经常出现故障。

为了有效地使用这种商品硬件,谷歌需要考虑故障率,这意味着使用五倍的浮点运算器或位来达到相同的性能。然而,这种策略导致了显著的成本降低;每浮点运算的成本可能只有竞争系统的五十分之一。这使得谷歌通过优化其分布式系统的使用并充分利用硬件来获得十倍的成本优势

当我回顾我第一次使用谷歌的经历时,我记得一个非常简单的前端——只是一个带有搜索框的白色网页。我相信当时它的前端不如雅虎吸引人,雅虎提供聊天室和其他更花哨的功能。然而,谷歌的魔力在于其后端。所有令人印象深刻的性能都源于其后端,该后端已精细优化到裸机级别。

现在,在Dean和Decart,我看到一个类似的故事正在出现。然而,我们需要保持谦逊;这家公司还有很长的路要走,才能与谷歌相提并论。作为记录,红杉资本共同领导了谷歌的A轮融资,我为此感到非常自豪。我们还领导了英伟达的种子轮融资,我相信这些投资的业绩记录,包括苹果的A轮融资。

但话又说回来,我相信要创造真正令人愉悦的用户体验——一个简单的前端——你需要一个绝对令人难以置信的后端,该后端已优化到裸机级别。这是一项孤注一掷的努力;如果你无法实时交付,那么体验就不会很好。如果没有进行彻底的优化,我认为在短期内实现实时性能是不可行的。在我看来,这些是我见过的唯一愿意并且能够应对这一挑战的人。

迪恩: 哇,我很喜欢Sean刚才说的,有两点非常吸引我。一是关于垂直整合,我们稍后会谈到,这与你最初的问题有关。二是,我最近和一位谷歌非常、非常、非常高级的管理人员交谈过。(我不会透露姓名)只是回忆过去,试图了解当时的情况,因为谷歌成立的时候我才三个月大。所以,我试图理解究竟发生了什么,为什么那很有趣。它来自一次无关的谈话,而那位人士提出这个问题的方式非常引人入胜。我们当时正在讨论GPU集群有多不可靠。总的来说,如今,如果你尝试在一个集群上训练像我们训练的那种模型,无论是超大规模集群还是GPU云,那玩意儿每隔几个小时就会崩溃一次。

你会遇到各种奇怪的问题。例如,一个节点可能会崩溃,这可能是由于另外两个节点之间的电缆上沾有灰尘。没有任何错误信息指示正在发生什么。结果,你的训练运行就会崩溃,你会一头雾水地想知道为什么。你可能会尝试重新启动它,但这不会起作用。然后你开始随机移除节点,直到你明白发生了什么。这反映了整个行业的现状。几乎唯一没有遇到这种情况的可能是谷歌和OpenAI,因为它们已经将一切都构建到了硬件级别。

OpenAI有很多时间专注于提高可靠性,但其他所有人——大公司和小公司都面临这些问题。所以,我和这位谷歌高层人士交谈过,他们提到今天的训练就像90年代的CPU一样。他们明确表示,在这一点上,我们可以忘记像Kubernetes这样的高级管理工具;那时还没有VMware。

好吧,没有什么东西是可靠的,你的服务器会一直崩溃。大多数公司都不想处理这个问题。所以他们要么支付某种程度上更好的优质服务费用。首先,他们支付了更多钱,其次,他们也付出了时间成本。稳定的硬件出现之前,不稳定的硬件就存在了。当然,我们会在一年后,两年后,或者任何时候获得稳定的训练运行。英伟达会让他们的芯片更稳定。他们会让他们的代码更稳定。GPU云会解决这个问题。那会发生的。但现在还不是这样。如果你今天想训练一个模型,你将会面临所有这些问题。所以其中一件事情,这真的是一个你必须处理的挑战,在Decart,我们就是这样处理的。好的?你看到的那个模型,Oasis 1,从头到尾收敛只需要20个小时

你可以比较一下。我们与其他AI实验室有很多合作或交流。他们都被这震惊了。现在,我们说的是训练扩散模型的顶级实验室。对于这个模型,它们的收敛通常需要大约两周时间。这是因为他们没有使用优化的系统和分层结构,也因为它们每隔几个小时或几天就会崩溃。我们实际上可以保持运行。我们可以实际保持训练运行端到端而不会崩溃。我们还可以保持训练运行一周或两周而不会崩溃。这种可靠性与当时发生的事情非常契合。

现在,问题在于,这真的不容易做到。你看,我们有一份内部文档,我想现在大约有200页,详细说明了在训练模型时可能出现的所有问题。它涵盖了各种问题,例如,如果你在这个节点上看到这个错误,那么你应该告诉你的硬件操作人员这两个节点之间存在问题。它包括从微小的错误到重大的错误。例如,在训练OASIS的某个时刻,我们也需要一些合成数据。

我们说,好的,我们有这个集群。它拥有大量的CPU,这很好。它也有很多GPU,但是CPU的利用率只有大约3%。所以,我们决定利用这一点在训练进行的同时生成大量的合成数据。顺便说一句,这让我们GPU云的工程师们都惊呆了,他们惊讶于我们以200%的利用率使用集群。我们同时利用了CPU和GPU,甚至在训练过程中使用了InfiniBand来传输数据。因此,我们从集群中获得了比预期更多的东西。

现在,这一切都说得通。一方面,GPU正在被利用,而CPU却没有。所以,我们并行运行合成数据生成,这应该不会影响任何东西,因为它只使用CPU。然而,你的训练运行却无法工作,你会得到一个随机错误,该错误字面意思是“缺少数据加载器中的锁文件”。这两个是如何相关的?

你想知道它们是如何相关的吗?它们是这样相关的:合成数据生成使用了更多的RAM,这很好,但是它导致了……我的意思是,为了在生成合成数据时在不同的节点之间移动数据,它使用了比以前更多的网络带宽。这导致Python的数据加载器将通常网络映射的一个日志文件交换到磁盘。这导致了不同的节点拥有不同日志文件的状态,从而导致数据加载器崩溃。我可能说错了,团队可能正在听我说,并且心想:“不,Dean,你完全搞错了,”但这就是事情的简要说明。你做了一些看似有道理的事情,却得到了一个随机错误。这就是我们的日常工作;我们有一份200页的文档,里面记录了所有这些事情。

主持人肖恩: 这是一个Dean乐于分享的简单例子。这是比较简单的一个。还有100倍更难、更重要的事情需要他们去解决。我认为相对简单的一个例子,它也展示了当前AI的现状。Dean,如果你不想谈论这个,就不用谈。但是他们获得了访问新集群的权限,不知何故,该集群尚未安装内存。但是GPU有一些非常小的板载内存。所以大多数人甚至无法使用GPU。你能分享一下这个故事吗?

迪恩: 是的,这是一个不错的案例。你知道,我们称其为地球上训练视频模型的最佳场所。训练视频模型不仅仅是集群本身。它包括围绕集群的一切。好的,你需要在那里有存储空间。你需要在那里有网络连接。构建地球上训练视频模型的最佳场所需要很多东西。而实际上我们离这个目标还很远。好的,我假设在接下来的半年里,很多事情都会稳定下来。很多GPU云都在努力解决这个问题。但是,在我们获得的一些集群中,根本没有存储空间,顺便说一句,这种情况不止发生在一个集群上,在不同的云平台上都发生过,你知道,云平台提供GPU,然后……

主持人肖恩: 他们太专注于获取H100了,以至于忘记了装内存。

迪恩: 他们本来打算安装它,但他们试图尽可能快地发布所有内容,这很好,也很合理。所以,好吧,没有您可以使用的稳定存储、针对存储优化的节点,也没有您可以使用的S3存储桶或类似的东西。因此我们说,好吧,每个节点都连接了几个SSD,如果我们在那之上构建我们自己的小型伪分布式文件系统呢?好吧,这就是我们所做的,它有效,有很多障碍需要克服才能实现这一点,但最终它还是成功了。我认为这回到了你关于垂直整合的问题,垂直整合,所以,Sean比我更懂商业,并且在这个领域比我待的时间长得多。

但就我看来,如果我错了请纠正我,垂直整合通常会给你带来两样东西:降低成本,比如更高的利润率等等;以及加快速度的能力。也许还会带来第三样东西,因为通常事情都会带来三样东西,但谁知道呢。所以,我认为在AI领域,更重要的是——当然,两者都很重要——但我认为第二点比第一点更重要。

因为归根结底,如果你看看我们面临的所有问题,很好,它们最终会被解决。解决它们需要时间。而且,我认为有一篇很棒的文章,我想是在《信息》杂志上,大概几个月前,那些离开谷歌创业的人突然意识到,什么都不管用,因为在谷歌内部一切都能正常运转。然后你走到外面,哦,没有存储,或者,我的云提供商不提供这个,我实际上需要自己处理这个。

所以,好吧,没问题。随着时间的推移,这些问题会稳定下来,你的云会提供云应该提供的东西。你也会有很棒的公司为你提供系统层面甚至模型训练层面的中间层服务,这会让你的事情变得容易很多。但是如果你真的端到端地完成所有事情,你就能比其他人提前一年进入市场,甚至提前两年。我认为这就是关键。

因为即使我们看看谷歌的故事,或者苹果iOS的故事,技术壁垒不会一直存在,对吧?当然,谷歌是一个很棒的搜索引擎。必应可能也不错,好吧?当然,也许谷歌拥有更多数据,所以他们能够做到这一点。但微软是一家庞大的公司,他们研发必应已经很久了。它是一个不错的搜索引擎,他们拥有这项技术。但这并不意味着现在必应和谷歌势均力敌,对吧?

所以,归根结底,这里的整个游戏就是快速建立你的技术壁垒,然后比其他人领先两年,就像谷歌和OpenAI所做的那样。尽可能快地将它转换为不同的模式,这就是这里的游戏。这是你必须参与的游戏,因为我们都可以说,好吧,你知道吗,红杉资本投资了,一切都很顺利,让我们先把钱存进银行,赚点利息,我们去海滩待上两年,等待一切稳定下来,然后我们两年后回来建立同一家公司,这将很棒。但其他人会先做到这一点,我认为这就是我们选择垂直整合的原因。

主持人索尼娅: 我喜欢。你们的护城河是什么?

迪恩: 长期还是短期?两者都有。两者都有。短期技术。好吧。短期技术。这很好。我们拥有最好的系统层技术。我们也在做模型层面的事情。所以我们正在完全整合。长期来看,我认为这是一个很好的问题。让我分享一些我发现非常有趣的东西。好的,所以现在存在一种以前不存在的、较弱的网络效应的新版本。

这种网络效应被称为人们在TikTok上看到的东西。为什么这很有趣?

好吧,我认为哪些公司真正优秀?他们最终卖给了谷歌,那就是Character AI。但是Character,有很多东西可以从Character中学到。其中一件让我印象深刻的事情是,他们一旦起飞,就会立即面临大量的竞争。他们的技术壁垒只持续了大约半年,直到Meta发布开源模型,然后其他人开始使用它。

尽管存在这种竞争,他们仍然是垂直整合的,因此他们能够比其他所有人便宜10倍,这很棒。然而,真正引起我注意的是他们的TikTok模式。如果你在TikTok上搜索任何竞争对手的角色,你会找到那个竞争对手的视频;很好,但是然后你会滚动并看到100个Character的视频。

此外,如果你去看那些不是Character的视频,所有的评论都充满了Character。如果你与一个随机的Character AI用户交谈,他们通常甚至不知道竞争对手。由于TikTok,我们不知何故,确实建立了一个基于人们在TikTok上对你的评价的新护城河。你那里是否有一个小型网络效应?一个小型品牌?我不确定它是一个网络效应还是一个品牌效应。

所以,所以它非常类似于,类似于品牌,但它很直接。就像20年前的品牌一样,还可以。你听到你的朋友或你的父母谈论过这个吗?你总是接触年轻一代,尤其是他们总是使用TikTok。所以他们立刻就能看到这一点。因此,甚至存在一个很大的问题,即这样的护城河能否维持两三年,直到你获得像谷歌那样的长期护城河,比如疯狂的品牌,或者一个分销品牌,或者类似的东西,或者一个分销护城河,或者类似的东西。所以我认为我们正处于一个新的市场,我们不一定会有10年前相同的护城河。

主持人肖恩: 然而,硬件始终是最好的护城河。就其价值而言,我认为谷歌已经将最初的软件护城河和分布式系统护城河提升为硬件护城河。我个人认为谷歌没有充分利用其应用层。自早期以来,他们并没有太多真正成功的突破性消费产品。然而,他们拥有绝对巨大的成本优势,这主要是因为他们的硬件层。

当我在谷歌工作时,有一个项目让我大开眼界,并为我的一些投资做好了准备。谷歌构建了光互连来移动数据中心的数据。如果你搜索“Jupiter Rising Google Data Center”,你会发现一篇关于这项技术的论文。从本质上讲,这些光开关一旦激活,就会使数据中心的性能翻倍。这些开关主要在数据中心机架之间运行,将信息从电子转换为光子。构建这些开关极具挑战性。当时,如果你问谷歌以外的任何人是否有可能创建一个每秒100太比特的交换机,他们会说绝对不可能。但他们做到了。

比尔多年都不知道谷歌开发了这项技术。这导致数据中心的功耗降低了约30%。诸如此类的事情代表着真正的根本性护城河。我认为预测一家公司未来的护城河总是很难的。尽管如此,我坚信硬件是最终的护城河,部分原因是移动原子(例如启动晶圆厂、获得电力或建造发电厂)总是会存在极大的延迟

即使在一个拥有AGI的世界中,硬件开发的时间尺度仍然很长。即使有一百万个乐观机器人,创造新硬件的时间框架也会慢得多。所以无论如何,我希望Decart拥有硬件护城河。

迪恩: 我想在这点上我同意你的看法。长期来看?好吧,你知道,这实际上可以追溯到我们创立笛卡尔公司的时候。我们当时说,好吧,我们参与其中,我们称之为“金票”。我们得到了这张人生只有一次机会的“金票”,在那个时代创立公司,就像我们之前讨论的那样,你可以解决一些根本性的局限性,而不仅仅是参与一场巨大的技术变革。

我们分析了这个领域,发现这里可以建立三个巨型公司。首先,你可以建立一家英伟达的竞争对手。如果你看看为 AI 量身打造的下一代芯片,这将非常困难,但英伟达不仅仅是一个芯片巨头;他们也是一个供应链巨头。与他们竞争极其困难,但是,如果你努力绕过一些障碍,业内每个人都想帮助你。所以,如果你在业务方面真正做到出色,这是可行的。

第二个机会是建立下一个 AWS。这是一个机会,因为工作负载本身正在发生变化,因此有机会创建一个新的云。然而,这也非常困难,因为在这个市场中,存在一个默认的赢家。即使你们都失败了,前三名仍然会获胜,包括甲骨文和其他云服务提供商。

第三个机会是创造新的体验。我们相信这些新的体验将具有足够的颠覆性,下一个万亿美元公司可能在五年内出现,而不是三十年内。我们必须选择一个来开始,我们选择了体验这一块。然而,建立一家英伟达的竞争对手绝对是强有力的第二选择,我们仍然留有将来重拾这个想法的念想。

主持人索尼娅: 我明白为什么你们俩是朋友了。我最后再问一个问题。如果一切顺利,10年、15年、20年后的Decart公司是什么样的?你们创造了哪些体验?以及,消费者娱乐的未来是什么?我不知道这是否是正确的市场。

迪恩: 我要说的是,我要感谢红杉资本的James,因为他创造了这个词。生成体验,GX。我们称之为“用户体验已死,长久地活下去的是生成体验”。基本上,我们将拥有以符合人类与计算机交互方式的新体验。

这涵盖了从作为生成体验的AI角色到实时视频模型或生成体验的一切。这就是我们将看到的。Decart公司最终是一家生成体验公司。我们通过完全垂直整合来实现这一点,拥有系统层。

最终,你是一家生成体验公司。你正在创造新一波将触及地球上每个人的体验。这就是关键所在。现在,唯一的问题是这需要10年还是15年。在当今时代,可能需要的时间更短。

之前的巨头们统治世界花了很长时间。我不知道是否会花费那么久。肯定至少需要五年。谢谢。

主持人索尼娅:  Dean,恭喜你所取得的成就。感谢你今天加入我们。我们喜欢这次谈话。

主持人肖恩: Dean,我不会祝贺你。让我们创造一些疯狂的东西吧。但我喜欢这种情绪。

迪恩: 我们只有真正获胜才能庆祝。是的。我们不庆祝小的胜利。

参考资料: https://www.youtube.com/watch?v=GuenqZiA1NA,公开发表于2024-11-13

👇关注公众号后设🌟标,掌握第一手AI新动态

往期精选

  1. 黄仁勋专访:OpenAI在大模型混战中达到“逃逸速度”
  2. 李飞飞与Justin深度解读空间智能:数字世界需要三维表征,才能与现实世界融合
  3. PayPal创始人彼得·蒂尔:人类科技停滞源于原子方面的进展远慢于比特
  4. 谷歌联合创始人布林:巨头们打造的“上帝模型”几乎可以理解一切
  5. 马斯克:AI将使商品和服务的成本趋近于零
  6. Karpathy最新专访:人形机器人、特斯拉、数据墙与合成数据


瓜哥AI新知
紧追AI业界一手观点、访谈、动态,点滴构建AI底层认知
 最新文章