Perplexity CEO揭秘:不训大模型、关键在于检索、排序、编排

科技   2024-10-30 00:02   北京  
本文内容整理自Perplexity AI CEO Aravind Srinivas接受Jim Rutt Show Youtube频道专访,公开发表于2024年10月18日。原始内容参考:https://www.youtube.com/watch?v=IXn-R28E9S0

Perplexity AI CEO Aravind Srinivas接受Jim Rutt Show频道专访

内容导读

关于Perplexity AI 及其与其他搜索引擎的比较:

  • Perplexity AI 是一种基于 AI 的新型搜索引擎(或答案引擎),其优势在于能够提供更准确、更全面的答案,尤其擅长处理复杂或研究导向型的问题,并提供来源引用。  这与传统的搜索引擎(例如谷歌)和大型语言模型(例如OpenAI、Gemini)形成对比,后者速度更快,但在处理复杂问题和提供观点方面表现较差。Perplexity AI 不回避给出观点,甚至在一些有争议的问题上也会呈现多种观点并附上来源。
  • Perplexity AI 的速度不如谷歌快,但其在处理复杂问题上的优势弥补了速度上的劣势。  用户同时使用谷歌和 Perplexity AI,根据问题的复杂程度选择合适的工具。
  • Perplexity AI 使用 RAG(检索增强生成)技术,从网络上检索信息并将其作为提示的一部分提供给大型语言模型,从而生成答案并提供来源链接。  这与仅依赖大型语言模型生成答案的其他引擎不同,使其答案更可靠,也更容易进行事实核查。
  • Perplexity AI 敢于表达观点,这与其使用 RAG 技术以及对准确性的不同取舍有关。  谷歌等巨头为了避免错误带来的负面影响,倾向于给出含糊其辞的答案,而 Perplexity AI 则更愿意表达其根据现有信息得出的观点,即使这可能会导致错误。
  • Perplexity AI 利用了大型科技公司在创新上的困境(创新者困境),即大型公司因害怕犯错而行动迟缓,为新兴公司提供了机会。

关于Perplexity AI 的技术和商业模式:

  • Perplexity AI 使用多种大型语言模型(GPT、Claude、LLAMA、Mixtral 等)以及来自多个搜索引擎的排名信号和第三方数据提供商的数据。  它拥有自己的索引,但也会利用其他来源的数据来增强其搜索结果。
  • Perplexity AI 的核心竞争力在于其独特的答案生成和数据整合能力。  其技术架构涉及多个步骤的检索、排名和答案生成过程,包括关键词匹配、n-gram 重叠、基于嵌入的相似性评分以及大型语言模型的最终处理。
  • Perplexity AI 使用向量数据库(如 Quadrant)来进行嵌入式内容处理,提高了检索的精度。
  • Perplexity AI 的商业模式包括付费订阅服务(Pro 版本)和未来的广告收入,以及企业级服务(搜索公司内部数据)。 主持人表达了对广告模式的担忧,并强调了提供无广告付费版本的必要性。关于创业公司与大型公司的比较:
  • 创业公司比大型公司更容易保持“hustle”(努力工作)的状态,并能够更快地适应变化和创新。  大型公司由于规模庞大,流程复杂,行动迟缓,难以快速响应市场变化。

Aravind Srinivas简介

图片来源于网络

Aravind Srinivas 是人工智能初创公司 Perplexity AI 的首席执行官兼联合创始人。Perplexity AI 致力于打造“世界上最值得信赖的问答引擎”,其核心产品是一款基于大型语言模型的聊天机器人,可以回答用户问题并提供信息来源。

Srinivas 拥有加州大学伯克利分校的电气工程和计算机科学硕士学位。完成博士学位后,Srinivas 转入工业界,加入 Google,并在 AI 开发方面担任关键角色。他在 Google 的经历不仅加深了他的技术专长,还为他提供了宝贵的见解,让他了解 AI 在现实世界中的实际应用。

2021 年,Srinivas 与人共同创立了 Perplexity AI,其使命是使人们能够更便捷地获取高质量的 AI 解决方案。该公司凭借其能够以前所未有的准确性和速度回答复杂问题的 AI 模型迅速获得认可。在 Srinivas 的领导下,Perplexity AI 扩展了其产品,包括一系列专为个人和企业用户设计的 AI 工具。

Srinivas 是一位备受关注的科技新星,他的目标是利用人工智能技术让信息获取更加便捷、可靠。他认为,未来每个人都将拥有自己的人工智能助手,帮助他们学习、工作和生活。

访谈全文记录

主持人Jim Rutt: 今天的嘉宾是 Aravind Srinivas。他是 Perplexity AI 的联合创始人兼首席执行官,Perplexity AI 是一家人工智能初创公司,它开发了一个 AI 驱动的搜索引擎,或者有些人称之为答案引擎。Aravind 是印度理工学院(IIT)的毕业生,这所非常著名的印度科技学院培养了大量优秀人才。他拥有加州大学伯克利分校的计算机科学博士学位。在共同创立 Perplexity AI 之前,他是加州大学伯克利分校的教授。在大学里,Aravind 曾作为研究科学家在 OpenAI 工作,参与了 DALL-E 等文本转图像生成器项目。欢迎,欢迎。

Aravind Srinivas: 非常感谢邀请我来到这里。非常高兴来到这里。

主持人Jim Rutt: 是的,我也很高兴邀请你。我必须承认,我是 Perplexity 的粉丝。谢谢。经常收听节目的听众知道我每三集至少会提到它一次。我每天都在使用它。它可能取代了我 50% 到 60% 的 Google 搜索,以及相当一部分我使用 ChatGPT 和 Claude 作为答案引擎的使用。而且我一直在扩展我的使用,这很有趣,主要是在蚕食我的 Google 搜索。

不过我要说的是,对于那些正在考虑切换的人来说,答案的类型不同,在许多方面更好,在其他方面则有所不同。与 Google 相比的一个小缺点是速度。Google 更快。所以我总是在脑子里做优化问题,当我考虑使用哪一个时。所以我总是在我的浏览器中同时打开这两个。如果它相对简单,速度更快,那么我会选择 Google。如果需要花费时间筛选链接,试图弄清楚哪些是垃圾邮件,哪些不是,那么我会选择 Perplexity。随着问题难度的增加,我更有可能选择 Perplexity。我仍然发现 Google 更好更快。

事实上,我今天下午又测试了一下,以确保情况仍然如此,比如匹兹堡劳伦斯维尔最好的墨西哥餐馆,Google 在几个方面都更好。而且好的一点是,它有一个地图功能,这是一个很大的优点。另一方面,对于很多很多事情,Perplexity 绝对是答案。任何我认为是研究导向的事情,我将列举我在过去三天做的一些搜索,这能说明我使用它的类型。这些绝不是我做的全部搜索。滑稽的是,我最后一次在 Perplexity 上的搜索是,你对 Perplexity 首席执行官 Aravon Srinivas 有什么了解?它给了我最好的答案。

Aravind Srinivas: 好的。比如这样的问题:告诉我过去一年人工智能的成本如何下降,或者,飓风米尔顿什么时候会袭击佛罗里达州以及在哪里,或者比较过去 5 到 10 年伯克希尔·哈撒韦和标普 500 的股票回报,或者 Google 每年的查询次数是多少,或者如何下载特定的软件,如何在我的 Mac 商店修复这个特定的软件安装,甚至像印度的国球是什么,或者副总统辩论什么时候举行,或者还有总统辩论吗?你知道的,这些问题 Google 永远不会给你一个合适的答案的问题,但 Perplexity 会直接给出答案。

主持人Jim Rutt:他们太糟糕了。他们应该能够解决这个问题。

Aravind Srinivas: 你知道为什么吗?因为他们害怕犯错。一个错误会让他们在品牌、声誉、股价方面付出巨大代价。当然,错误也会让Perplexity付出代价,但我们对我们的技术非常有信心,如果能帮助我们改进并最终做到正确,我们不介意犯错。我们会非常透明地告知用户,我们仍然是一家正在努力解决这个问题的初创公司。而谷歌,他们是巨头,是行业中的庞然大物。他们认为,谷歌推出任何东西都应该是一流的、准确的、可靠的。

早些时候,他们在谷歌Bard(以前被称为Gemini)的现场演示中就遇到了问题。很多人可能不记得了,那次现场演示失败了,导致谷歌股价一天内下跌了5%到7%。所以,我们利用的就是这种不对称性,这种创新者的困境:我们能正确回答80%的查询,就能给像你,吉姆这样的人留下深刻印象;但谷歌回答错误20%的查询,就会让人觉得谷歌正在衰落,股价下跌,华尔街恐慌,谷歌不再被视为人工智能领域的领导者。这就是像我们这样的新进入者获得机会的地方。

主持人Jim Rutt:很有意思。是的,对抗巨头,快速机动总是很有趣的。在我的职业生涯中,我几次做到过这一点。我非常喜欢Perplexity,而不是谷歌、OpenAI、Gemini或其他任何公司的原因是,Perplexity引擎敢于表达观点。我下午做研究时测试了两个例子。第一个问题我问的是,披头士乐队和大门乐队哪个更好?OpenAI给出了一个非常模棱两可的答案,左说右说,含糊不清。Gemini也是类似的回答。Perplexity则直接回答:披头士乐队,并给出了原因,条理清晰。太棒了!如果我问一个关于哪个更好的具体问题,我想要一个明确的观点。还有一个问题,可能有点争议。我问Perplexity,唐纳德·特朗普是否有精神疾病?它列举了认为他患有精神疾病的人的观点。当然,它最后也警告说,没有实际的诊断……等等。但它确实表达了它自己的看法。我问OpenAI同一个问题,它却给出了一个完全平淡无奇的答案,显然是回避了这个问题。我以前也见过这种情况,Perplexity敢于表达自己的看法,它不像其他引擎那样,总要将答案包裹在各种模棱两可的措辞中。这是设计使然,还是一种偶然的结果?

Aravind Srinivas:我的意思是,如果你设计一个系统总是去搜索网络,阅读其他人的说法,然后根据这些说法形成一个观点,那么你将得到性质完全不同的答案。这与仅仅试图回答人工智能模型构建者让你做的事情——人工智能模型仅仅根据你所问的问题生成它自己的观点——是不同的。

由于人工智能模型中内置了一些防护措施,或者使用了不同类型的人类偏好强化学习(RLHF)技术,不同的AI模型往往会以非常不同的方式回答问题,有时甚至会给出模棱两可的答案,因为这就是它们被训练的方式。而Perplexity会告诉你,网络的这一部分认为是这样,那一部分认为是那样,但最终你必须自己得出结论。它提供的是关于不同事情的不同视角,是真正的视角,而不是毫无意义的冗余信息。这之所以成为可能,是因为我们使用了一种名为检索增强生成(RAG)的技术构建了该系统,我们从网络上提取结果,将其作为提示的一部分,然后要求模型思考:使用所有这些作为额外的上下文,而不仅仅是基于你作为人工智能模型自己的想法,你能尝试回答用户的问题,并引用来源,确保用户甚至可以检查你所说的内容吗?所以这给Perplexity带来了与ChatGPT相比截然不同的体验。

主持人Jim Rutt:我喜欢它的引用。我必须说,很多时候,引用的来源是某种平淡无奇的评论文章。但你可以从那里找到真正的来源。拥有这些引用非常非常有用。OpenAI目前还没有引用。正如你解释的那样,直接从大型语言模型中提取引用非常困难,而使用RAG则简单得多,因为你知道RAG提取了什么内容。你可以浏览这些内容,然后从中挑选出想要作为来源的内容。我认为这也是一个很大的区别,尤其是在我进行更严肃的研究时。因为你我都知道,正如你所说,十次中有八次(现在我觉得应该说是十次中有九次),你可以得到一个不错的答案,但并非每次都是完美的。所以你总是需要检查答案,对吧?

为了确保准确性。拥有引用使得进行二次检查变得容易得多,如果你要将它用于任何重要的事情,这都是必要的。让我再给你举两个例子,说明我喜欢Perplexity的原因。前几天我为准备播客做了一个研究,一个很技术性的问题:大五人格模型中各个类别之间的双向相关性是什么?我在谷歌上尝试了一下,结果一团糟。我把这个问题给了Perplexity,它直接给出了正确的答案,完美!另一个例子是,我是一个业余爱好者,买卖和修理70年代、80年代的复古音响系统,例如扬声器和放大器。所以我经常会遇到一些关于这些非常古老,有时非常模糊的设备的问题。我今天刚买了一套90年代初的复古扬声器,我想知道它们有多大。谷歌给出的信息含糊不清。我问了Perplexity,它直接给了我答案。

Aravind Srinivas:是的,没错。我一直在问这些问题。比如,我在这个特别的活动上做演讲,而这些就是他们问我的一些问题。去看看我已经做过的所有采访,试着告诉我应该如何回答这些问题,用一种我以前从未说过的方式。它在这方面做得相当好,好到我几乎感觉自己可以被取代了。然后告诉我关于英伟达Blackwell芯片的事情,最近需求激增,我该如何看待这只股票?或者说,这个特定群体与这位投资者有什么关系?旧金山最近经历了整个热浪,直到今天才降温。我试图弄明白那里为什么会发生热浪,它很好地解释了由于高压系统而形成的整个热穹顶是如何形成的,它基本上阻止了来自底部的所有凉爽的微风。

所以,你知道,这太神奇了,对吧?谷歌创建了谷歌助手,以便你可以去尝试问这些问题,但他们从未真正实现过提供那种体验。然后,人工智能的拐点出现在2022年底,当时人工智能模型(当然,随着ChatGPT的出现),人工智能模型开始能够进行良好的总结、良好的格式化,以及能够在聊天线程中跨多个问题跟踪上下文的能力。所有这些能力都可以用来构建全新的体验。搜索是所有软件类别中最大的一类,所以我们想,好吧,我们为什么不尝试将它们用于搜索呢?最终就成了这家公司。

主持人Jim Rutt:人们一直说谷歌很脆弱,因为他们并没有那么大的护城河。事实上,我最大的——不是最大的,我的第二大投资失误是,我的几个朋友获得了获得参与谷歌IPO股票的机会,他们问我是否想参与其中。我说,不了。你知道,20倍,50倍。但我的论点是搜索没有护城河,对吧?我以前实际上编写过搜索引擎,所以我知道这项技术并不那么深奥。而我忽略的是,看到所有的搜索实际上是谷歌拥有的护城河。但他们总是容易受到容量量子飞跃的影响。我认为人工智能搜索前端至少有很大的可能性从谷歌那里夺走可观的市场份额,除非他们做出回应。到目前为止,他们完全是软弱无力的。唯一比他们更糟糕的是微软。奇怪的是,起初,他们用于必应的人工智能聊天前端还可以。我今天尝试了Copilot,它完全糟透了。糟糕透顶。我不知道这些天他们在雷德蒙德到底在做什么。所以,如果你们努力的话,你们有一些机会。

Aravind Srinivas:你提到了“努力”这个词,对吧?“努力”通常与初创公司而不是大公司联系在一起。我记得去雷德蒙德拜访必应团队,那是在我们旅程的早期。你知道,我想他们刚刚推出了必应聊天,他们说,这是他们在过去十年中最努力的一次。那时我知道,如果一切都是关于这样努力的话,那么长期保持努力对初创公司来说比对大公司更容易,因为你根本没有这种实力。

比如,你能努力工作一两个月,但你能坚持五年吗?这是个问题,对吧?而且激励措施也不存在。对于大公司来说,发布新产品并不一定会改变市值。对于初创公司来说,它是你唯一的產品,你不断改进它,你不断获得新用户,你不断看到指标上升,你不断地思考。我们的盈利模式、新模式、新商业模式,一切都令人兴奋,一切都是新的,一切都在增长,然后你感受到肾上腺素,这能帮助你努力工作数年而不是一两个月。这就是让你在产品优势和用户体验方面优于大公司的因素。

主持人Jim Rutt:绝对的。我在这条线的两边都待过。我曾在跨国公司担任C级高管,也担任过上市公司的CEO。我还做过五家初创公司,并为17家初创公司提供过咨询。所以我完全明白你的意思。事实上,大公司竟然能够生存下来真是令人惊讶。这仅仅是因为它的规模经济。它的人均实际生产力远低于初创公司,这非常重要。这实际上很好地引出了我的下一个问题。我一直在深入研究,或者至少是在寻找人们对Perplexity的评价,这可能并不属实,对吧?那就是你们在利用世界上现有的东西方面非常聪明,而不是重新发明一切。另一方面,听起来你们确实重新发明了一些东西。那么,你能不能谈谈你们是如何决定使用哪些来自世界的东西,以及哪些东西要自己构建的呢?这对于初创公司来说始终是一个关键问题。

Aravind Srinivas:是的。我的想法是,获得用户,这是最重要的事情。任何为了重新发明已经存在的东西而延迟获得用户的事情,都违背了你的使命,违背了公司的业务。搜索没有护城河,我认为只有一个护城河,那就是品牌和分销。当然,技术、延迟、运营规模、基础设施、吸引高质量员工、广告收入,所有这些都是其中的一部分。但一切都服务于分销。当你是初创公司,而且无关紧要,没有人知道你时,即使你有一个你完全自己构建的很酷的演示,为什么有人会在乎呢,对吧?

所以我们在这方面一直都很务实,即使我们在人工智能研究方面有相当不错的背景,我们也从未真正觉得必须去训练我们自己的模型,或者必须自己构建整个索引。这一切都是为了向用户展示全新的体验。公司究竟在构建什么?核心产品体验是什么?以及这种体验将成为人们搜索的下一代方式的论点是什么?你如何验证这一点?这是你唯一的工作。在你验证了这一点之后,在你获得一定数量的用户之后,在你找到一种合理获利的方式之后,然后尝试开始自己构建一些东西,并利用你每天收集的所有数据,尝试看看是否有某种独特的模型或独特的编排、独特的索引或排名,你可以用来改进你的产品。这就是我们采取的方法,它对我们非常有效。

主持人Jim Rutt:是的,这是我在互联网上读到的内容,包括Perplexity提供给我的内容。听起来你们使用了各种大型语言模型,我看到你们提到了GPT、Claude、LLAMA和Mixtral。我还看到你们使用了必应和谷歌作为你们的索引引擎。你们还使用了哪些其他的外部主要组件?这些信息准确吗?

Aravind Srinivas: 我们使用来自多个搜索提供商的大量排名信号。我们实际上构建了自己的索引,但也依赖于大量数据提供商的排名信号。对于某些我们不自行抓取或爬取的网络域名,我们还依赖于第三方数据提供商,这些提供商只提供高层级的摘要片段和与URL相关的元数据,而不是实际内容。

我们使用许多开源的大型语言模型(LLM)。我们会对这些模型进行二次训练,以使其适应我们的产品,这基本上意味着使其在摘要、格式化、简洁性、引用、上下文理解、长文本处理等方面表现更好。对于闭源的LLM,我们直接使用其模型,并在其基础上进行一些自定义的后期训练,利用我们的数据进行训练,并进行大量的提示工程。我们构建了路由器和编排系统,用于处理所有这些数据源、模型以及特定许可证数据、第三方数据提供商、排名信号的API。基本上所有东西都会进入这个巨大的编排路由器,然后生成最终的使用者结果。

主持人Jim Rutt: 是的,这很有趣。我喜欢这类业务,因为从本质上讲,你的回报取决于你组合各个部分的技巧,以及识别哪些部分可以改进,或者市场没有提供的哪些小部件。跟我详细说说你们是如何进行这个编排的,因为显然,在选择使用哪些数据源、如何加权、如何优先排序以及如何处理这些数据源时,需要做出一些动态决策。谈谈这个引擎,这个编排引擎。

Aravind Srinivas: 是的,完全正确。在检索阶段本身,有很多事情要做,这取决于用户的查询,你试图挑选出最相关的10个或20个不同的链接。即使是这样,也包含多个排名阶段。首先是基于查询词匹配,这类似于传统的检索,例如TF-IDF风格的检索。

然后,它会经过n-gram重叠作为第二阶段。然后,它会经过基于嵌入的相似性比较,这更具有语义性和细粒度,它实际上会考虑查询的上下文含义以及文档的上下文含义。然后,它会挑选出许多链接中大约10到20个不同的段落,作为回答用户查询最相关的段落。

然后,所有这些段落及其对应的URL都会进入LLM,LLM会在用户查询的上下文中决定如何将所有这些不同的来源组合在一起。 因此,我们可以根据用户的意图,编写简洁或详细的答案,这些答案格式良好、易于阅读,并且可以很好地引用检索到的每个段落。

然后,我们会收集大量数据,例如哪些域名和子域名值得引用,例如人们对这些域名的信任程度,基本上就是某种页面排名的概念。然后,这也会用于影响排名。最终的答案会呈现为它在产品中的呈现方式。我们收集了大量关于用户对答案反馈的数据,我们会调试如果答案由于AI模型本身出错而损坏,而数据源本身没有问题;或者AI模型没有真正出错,而是由于数据源质量差,或者索引不够新,但数据源本身没有问题;或者有两个或三个不同的数据源关于同一件事提供不同的信息,因此AI模型不够聪明,无法判断哪些域名和子域名好坏。

主持人Jim Rutt: 这很有道理。现在,作为检索过程的一部分,你们是否使用语义向量数据库来对内容片段进行嵌入,用于检索增强生成(RAG)?

Aravind Srinivas: 是的,我们使用了一个开源项目Quadrant作为向量数据库,并且在此基础上进行了一些自定义修改。我应该说,向量数据库是容易被误解的。正如我所说,排名过程有三个或四个阶段,传统的Elastic风格的关键字匹配和n-gram重叠,所有这些基于TF-IDF的排名,都能为你完成大部分繁重的工作。你已经得到了一个非常好的高召回率的文档集。精度较低,但召回率相当不错。

然后,基于向量嵌入的相似性得分,向量数据库的相似性得分会进一步优化精度。然后,LLM最终会最大程度地优化精度,因为它在决定使用哪些来源来撰写答案方面非常细致。所以基本上可以这样理解,搜索就是确保你的结果具有高召回率和高精度。召回率基本上意味着正确的文档包含在你检索到的文档集中,但不一定排在最前面。精度意味着正确的文档排在最前面。

因此,即使在前两三个链接中包含你想要的内容。对于一个有十个蓝色链接的搜索引擎,你真的需要准确把握位置,否则体验会非常糟糕。但是对于基于LLM的答案引擎,传统的检索方式只需要优化召回率即可。当然,不是为了精度,但合理的精度就足够了。LLM会接收最终的10个或20个段落,它可以比基于用户点击日志的训练更好地去除无关的段落。所以这是相对于谷歌构建的传统系统的主要优势。

主持人Jim Rutt:  还有OpenAI运行的传统系统,对吧?他们只是LLM,上面还有一些其他的东西。

Aravind Srinivas: 但不多。没错。他们构建了AI。他们绝对是让AI成为非常好的对话者的先驱。我要在这里补充一点,

主持人Jim Rutt: 这是我的一个心头之痛。越来越多的人在谈论AI时,实际上指的是LLM或生成式AI,而AI是一个比深度学习和LLM大得多的领域。所以让我们明确一点,我们现在谈论的不是一般的AI,而是这种基于Transformer的生成式AI,目前所有的动作都在这里发生,但这可能不是永远如此。

Aravind Srinivas: 是的,完全正确。所以你们管它们叫大型语言模型(LLM)。大型语言模型就像一件精巧的东西。我的感觉是,怎么说呢,你所谓的AI,可能最纯粹的理解就是将其视为能够行动的智能体,例如游戏引擎中的AI,游戏里的一部分,比如你在制作吃豆人游戏时编写的AI,那些幽灵,或者当你尝试制作国际象棋游戏时,你要编写软件来模拟象棋,你必须为对手创建一个AI,对吧?所以,传统上计算机科学家就是这样看待AI的。这就是为什么AI的许多里程碑都围绕着:我能否训练一个AI成为国际象棋或围棋游戏中最优秀的人类玩家?过去就是这样,还有雅达利游戏。

而现在,AI似乎是指任何能自动化某种人类活动的东西,这算是一种普遍的定义。所以在某种程度上,将大型语言模型称为AI也并非完全错误,因为你可以认为大型语言模型能够帮你完成很多繁重的工作,例如翻译人员、会议记录员、将会议记录重新整理成可操作的项目供与会者使用的人员、语法校正员、演讲稿撰写者等等,所有这些基本任务都可以通过一个大型语言模型实现自动化。我认为,在某种程度上,这可以算作AI,但我明白你想表达的意思。这是一个让人抓狂的问题,说它是大型语言模型也没什么问题。

主持人Jim Rutt: 这也是我的一个痛点,因为我长期为AI公司提供咨询服务,特别是那些面向通用人工智能(AGI)的公司。其他一些方法仍然有很多优点。我相信大型语言模型将是解决方案的一部分,因为它解决了,正如你指出的那样,大量的问题,甚至在四年前,我们还认为解决这些问题需要十年时间,特别是语言问题。但还有其他问题。例如,大型语言模型在数学方面很糟糕是有原因的,对吧?它们永远不可能独立擅长数学,而其他类型的系统则擅长数学,它们可以来回协作,利用大型语言模型找出应该解决的数学问题,然后使用求解器AI来实际解决这些数学问题。这个问题以后再讨论。

但它们确实令人印象深刻。我一直在各种事情中使用它们。去年我写了一个程序,它使用大型语言模型编写电影剧本。它有40个不同的地方需要人为干预,但人类只需要花30秒或一分钟的时间进行干预。然后大型语言模型就会自行运行。大约八小时的人工时间,你就可以写出一个90分钟的剧情片,这太酷了。如果没有大型语言模型,这是不可能实现的。这看起来像是魔法,但它仍然不是完整的通用人工智能,不是具有与人类同等能力的系统。但它很可能成为该系统的重要组成部分。

我本来想提一下我用Perplexity做的另一件事。我想我实际上……这很有趣,也许是非法的。我认为它并不违法。但无论如何,它可能很危险。所以,孩子们,不要在家尝试这个。我长期以来都有一个投资想法,一个相当复杂的想法,它基本上就像一个小型的对冲基金。所以我尽可能精确地向Perplexity描述了它,然后说,好的,选择投资来执行这个策略。它做到了。这些投资方案非常合理。我将对其进行测试。我将组建一个小型对冲基金,投入5万美元左右,测试这个策略,看看会发生什么。如果它有效,这是一个高度对冲的策略,所以它不可能在一个方向上走得太远。但如果它有效,我将继续运行它。我将每月运行一次该查询,并根据Perplexity的建议调整投资组合中的权重。基于Perplexity比任何人都更了解现在正在发生的事情。它似乎完全能够理解这个相当复杂的策略,并且毫不畏惧。我敢肯定,如果我问OpenAI,它会说,“哦,我不能提供投资建议,我不是注册的投资顾问。” 等等等等。但是Perplexity,完全愿意制定一个正确执行该策略的模型投资组合。

Aravind Srinivas: 我的意思是,Perplexity并不是你的财务顾问,但它是一个非常棒的财务研究工具。我鼓励大家不要盲目听信别人的投资建议,要自己研究所有这些股票。早些时候,你会花钱雇佣市场分析师为你做这件事。现在,你只需要一个Perplexity查询就可以了解,哦,我应该投资英伟达吗?我不太明白。所有信息都已被计入价格了吗?黑色世界芯片延误会怎样?对训练GPU的需求如何?英伟达现在的竞争对手是谁?它仍然没有竞争对手吗?五年后的市场会怎样?这将如何影响亚马逊网络服务(AWS)的收入?英伟达的利润率是如何被挤压的?谁可能会这么做?所有这些都是我试图了解那些我没有接触过或没有这方面专家指导的领域的方式。这太神奇了。你能收集到的知识量……只需几次Perplexity查询就能收集到大量的知识,这真是令人难以置信。这就是该产品构建方式的原因,任何人都可以提出任何问题,而不用担心受到评判。我觉得这现在是一种非常不可思议的超能力。

主持人Jim Rutt: 是的,让我告诉你一件你可能可以改进的事情,因为我一直都在使用它,为我思考其他事情提供有用的摘要,对吧?一个部分。如果思考是分块的,那么能够更快更好地获得这些预处理的块非常重要,而不是阅读一本500页的书。例如,前几天,在一场在线辩论中,我需要比以前更好地理解黑格尔的辩证法。这是19世纪德国浪漫主义时期的哲学思想。所以今天,我重新运行了查询,Perplexity做得相当不错。ChatGPT 4.0做得更好。必应Copilot完全不行。

我使用了相同的查询。ChatGPT做得更好的地方在于,它提供了更多细节,即使提示是“提供黑格尔辩证法的详细解释”。有第二种方法来获得更多细节可能很好。但在我的例子中,至少ChatGPT更接近于理解我所说的“详细”的意思。你对此有什么想法吗?你的意思是Perplexity的答案在某些方面能提供更多细节吗?是的,能够从Perplexity中获得比现在更多的细节。这是我使用的提示:提供黑格尔辩证法的详细解释。OpenAI提供的信息密度大约是Perplexity的两倍。

Aravind Srinivas: 你是在手机应用程序上还是在网页上进行此查询的?在网页上。好的。所以我觉得,你知道,我又试了一下你的东西。对我来说,它看起来已经很详细了。我想,区别可能在于我们可能正在进行的任何特定的A/B测试,试图看看有些人是否更喜欢简洁的答案或详细的答案。但显然,如果你的提示包含“详细”,那么没有理由不为你提供详细的答案。有时我们会倾向于不在移动应用程序中输出过多的文本,因为人们的屏幕空间有限,注意力跨度也有限。

主持人Jim Rutt:我几乎不使用移动应用程序,我讨厌移动应用。

Aravind Srinivas:有意思。

主持人Jim Rutt:应用程序就像帝国反击真正的互联网一样。当然,旅行时我不得不使用它们,它们在某些方面也很方便,比如Uber。没有Uber你无法生活。但我不会说永远不会。当我坐在那里看书时,有时我会在我的手机上使用Perplexity。但90%的时间,我都会在网页上使用它。你们有API吗?如果你们有API,我就会开始把它集成到我的一些小型PC工具中。那将非常酷。是的,确实有API。我得去看看。

我们之前略过了其中一个问题,我很想听听你对如何解决这个问题的看法,那就是搜索的护城河似乎相对较低。我提到过,在我没有在Google IPO时投资时错过了什么,该死的,那就是看到了所有的查询,他们现在看到了85%的查询,这本身就是一个可持续的竞争优势。不是一个巨大的优势,但也不是零。你认为Perplexity未来会有什么样的护城河?

Aravind Srinivas:我认为仅仅是能够处理如此多不同类型的查询、每个查询如此多不同的自定义UI、学习如何将其中很大一部分货币化以及在潜在的使用规模下保持用户体验,这将非常非常困难和具有挑战性。因此,为此所需的的基础设施、你需要考虑的正确性、速度和可读性、协调如此多的不同工具和数据源,这将非常困难。我可以完全预见成百上千的事情可能会出错。仅仅处理不断变化的AI模型能力、准确性、延迟的动态空间,这将非常具有挑战性。所以我觉得,如果我们克服了这个挑战,这本身就是我们的护城河。由此积累的市场份额将会非常巨大。

主持人Jim Rutt:并且你们将拥有先发优势。如果你突破成为每个人在想要比谷歌更好的搜索时想到的东西,那么你将拥有在人们的应用程序页面上的心智份额和空间。该死的应用程序,讨厌应用程序!但这确实成为了一种护城河,本质上是一种渠道护城河,其中渠道受到限制。人们只能想到这么多的搜索引擎。如果你在心智份额中排名前三,那么你就拥有了一些非常重要的东西。

是的。现在,你顺便提到了其他一些事情,我确实想深入探讨一下,那就是货币化。我最近在一个账户上看到广告了吗?你们正在测试广告还是投放广告?

Aravind Srinivas:我们还没有投放广告,但我们打算投放广告。

主持人Jim Rutt:我认为一些引用被包装起来看起来有点像广告。我想再发表一下我著名的鲁迪观点:我讨厌该死的广告!我认为这是互联网的毁灭。大约在2002年,摩尔定律使得网络和计算足够便宜,你可以仅靠广告来资助一个相当大的网站。那就是互联网的毁灭。我知道你们需要一种货币化模式,但我真诚地请求你们,始终提供一个无广告的付费层,因为没有什么比广告更让我讨厌的了。

Aravind Srinivas:是的,完全同意。

主持人Jim Rutt:免费产品,是的,你们必须以某种方式将其货币化,但你们应该让人们有机会维护他们的认知主权。我最近在格鲁吉亚共和国的佐治亚州动物园村庄发表了一个关于这件事的演讲,对于那些认为自己是创造性思考者的人来说,最重要的事情之一就是保持你的认知主权,以免他人劫持你的大脑。我们今天的世界的一切都想要劫持你的大脑,而几乎纯粹形式的劫持大脑就是广告。你认为你们的货币化组合中还会有哪些其他内容?

Aravind Srinivas:企业级服务,例如允许你搜索公司内部的文件和数据,而不仅仅是外部数据,我认为这以前从未做过,因为构建用于网络的、类似于十个蓝色链接的搜索引擎与构建用于内部使用的搜索引擎完全不同,所以人们永远无法在一个地方构建两者。但大型语言模型允许你以一种非常简洁的方式统一它们,因为大部分繁重的工作都是由大型语言模型完成的。我认为我们可以以此构建下一代知识工作平台,用于研究等等。

它拥有巨大的市场,数亿人在世界各地每天都在工作,他们都将成为此类产品的日常活跃用户,我认为潜在市场规模非常巨大。所以这对我们来说是一个清晰的货币化机会。我们还将做更多API方面的工作,例如允许人们构建针对特定垂直领域的Perplexity之类的东西,或者他们真正关心的事情,例如,互联网上是否存在你真正想要结果的某些领域?你为此付出了努力去选择它,然后依赖Perplexity或添加功能来构建一个很酷的聊天体验。然后我们想成为许多硬件设备的一部分,所以我们会支持那些正在构建新硬件设备的人,通过我们的软件为他们提供良好的语音到语音功能。这些是目前的计划,而且我们非常灵活,可以继续在这里进行实验。

主持人Jim Rutt:你认为专业版的高级价格应该定多少?因为这又是我个人的一个不满,我知道这匹马早就跑远了,但如果人们愿意为真正的东西支付少量费用,而不是被广告攻击,那么世界将会变得更好。不幸的是,从心理上来说,人们更喜欢免费的东西。你们看到专业版产品的使用率有多高吗?

Aravind Srinivas:是的,完全同意。现在已经有数十万用户付费了。

主持人Jim Rutt:我希望这个数字会增加,因为我认为这比基于广告的模式向公司发送了不同的激励信号。在基于广告的模式下,你们最终会像Facebook一样,完全腐败,因为他们唯一的指标是他们能让你多久把眼睛粘在屏幕上。而实际上,像Perplexity这样的东西,它最大的优势是让我比Google快四倍地完成搜索,因为我不必重复搜索,我不必过滤掉搜索中出现的很多搜索垃圾信息等等。所以在某种程度上,广告可能是对Perplexity这样的公司的一种腐败的吸引力。所以,在你们前进的过程中,请记住这一点。

Aravind Srinivas:完全同意,完全同意。

主持人Jim Rutt:谈谈你需要成功还需要什么。这可能不是最新的信息,但这是Perplexity所说的话,你们最近一轮融资是在四月进行的,估值约为10亿美元,对吗?你们筹集了6200万美元左右。这似乎不足以对抗谷歌。

Aravind Srinivas: 不,在此之前我们也进行过其他几轮融资。比如,在此之前我们进行了一轮B轮融资,融资金额为7000万美元。再往前,我们还融资了2000万美元。在那之前,我们进行了一轮种子轮融资,融资金额为一两百万美元。所以,我们的融资轮次不止这一轮。所以我们肯定有相当多的资金。

我同意,对于谷歌来说,这些钱都只是九牛一毛。谷歌有1000亿美元的流动资金躺在银行里,而且他们每年的利润还在增长。因此,在上市之前,我们至少还会进行一两轮融资。我认为关键在于确保公司健康发展,拥有大量的用户,并获得良好的营收增长。同时确保我们知道如何利用筹集到的资金,将其转化为正确的增长和指标。这就是我们现在真正关注的重点。

主持人Jim Rutt: 好的,听起来不错。我看了一下你们的投资者名单,非常意外的是,名单上主要是个人投资者,而不是机构投资者。我一直认为创业融资是我的强项之一,而且我一直对这个领域非常感兴趣。我从比尔·所罗门那里了解到这个领域,他长期担任哈佛商学院创业融资的首席教授。非常幸运的是,我把他请到了我的第一家公司的董事会。所以他给我进行了私人创业融资辅导。你是如何选择让你的主要投资者是个人而不是机构的呢?

Aravind Srinivas: 我们的融资轮次一直由机构牵头,比如确定价格并锚定融资轮次的牵头投资者一直是机构。例如,A轮融资由NEA完成,B轮融资由IVP完成,C轮融资由……这略有不同,由Daniel Gross牵头,但他也是一种机构投资者,因为他所配置的资本数量很大。所以并不是完全由个人投资者主导,但个人投资者也一直是我们融资轮次的重要组成部分,与机构投资者并存。例如,英伟达是我们的投资者,他们是一个机构;贝索斯也是我们的投资者,他是一个个人,但……贝索斯的钱太多了.

主持人Jim Rutt: 可以说是机构了,对吧?

Aravind Srinivas: 没错。所以关键在于他们能为我们公司带来什么价值,他们的声誉,他们能为我们带来的介绍机会,以及他们能提供的战略建议和合作。

主持人Jim Rutt: 现在,IVP,是Insight Venture Partners还是其他IVP?机构风险投资公司。好吧,我不认识他们。通常,Insight会在稍晚的轮次进行投资。你们的下一轮融资,他们是一家非常优秀的公司。NEA当然也是一家非常棒的公司。

当然,我对Perplexity有一个抱怨。非常烦人,难以置信,而且毫无疑问很容易解决。至少每隔一天,当我打开我的Perplexity窗口(我的浏览器上到处都是这些窗口)时,我都会仔细输入提示词,按回车键,但什么也没有发生,它却吞噬了提示词。在过去两个月里,这种情况至少发生在我身上25次。那里肯定有什么问题。不应该出现这样的用户体验。昨天还发生了这种情况,所以我确定它仍然存在。

另一方面,OpenAI偶尔会出错,说你必须重新登录,但它永远不会让你输入提示词然后吞噬它而不做任何事情。Perplexity会这样做,并非总是如此,但经常发生,而且很规律。我会把这个带有项目符号的笔记发给你的团队,说:该死的,把它修好,因为它真的很烦人。它发生在网页版上。我只在网页版上见过。好的,它经常发生,就在昨天还发生了。我尝试使用你们的图像生成器,它看起来简直就是垃圾。我可能没理解它。

所以暂时不要相信这个,但如果我花足够的时间弄清楚如何使用它,它仍然不令人愉快,我会把我的想法告诉你。有传言说英伟达要收购你们,你们对此有何评论?我没有在任何地方看到这个谣言。你在哪里看到的?在Perplexity里搜索一下,看看谁在谈论英伟达收购Perplexity?好的,你可能会得到一些结果。我在Twitter上看到过这个传闻。

Aravind Srinivas: 我可以确认这是假的。而且,你知道,我们的投资者黄仁勋也在使用Perplexity。而且,我认为很多英伟达的员工都是Perplexity的每日活跃用户。我们在框架软件(如TensorRT、LLM推理)方面有很多合作。我们使用他们的Nemotron框架进行训练,但并没有实际的收购谈判。

主持人Jim Rutt: 说实话,戴上我的战略家帽子,这对英伟达来说是个愚蠢的主意。因为一般来说,你不想进入与你的客户竞争的业务。

英伟达是一家基础设施和平台公司。总是很诱人偷偷进入某个市场,但这却是一个糟糕的战略决策。我认为他们足够聪明,不会做这种愚蠢的事情。最后,你对Perplexity未来一两年有什么展望?未来两年你的计划是什么?

Aravind Srinivas: 继续发展,保持产品卓越,保持速度,保持准确性,将用例扩展到简单的问答、事实核查和知识相关研究之外,扩展到许多不同的垂直领域,让人们能够在这里完成许多日常活动,甚至在Perplexity上进行本地交易,并使产品更加个性化,几乎成为他们的第二个大脑。如果我们把这些基本的事情都做好了,并且将这些转化为良好的商业企业价值,那么我们将非常成功。而这是我唯一关注的重点。

主持人Jim Rutt: 在你们这个阶段,这听起来很合理。最终,你将不得不玩更高层次的战略游戏。但如果你在未来两年内都能出色地执行,这可能就是你真正需要做的全部事情。我会告诉你它在哪些方面有用,只是为了好玩,我尝试用它解决了一个编码问题。尽管它并非为此而设计,但我使用Claude或GPT的新001预览版进行编码非常棒。我尝试了Perplexity,它做得出乎意料地不错。我知道它并非为此而设计,但要让它成为一个不错的编码助手,可能不需要太多工作。

Aravind Srinivas: 是的,是的。我的意思是,很多人确实使用Perplexity编写代码。我认为它的优点在于它非常擅长搜索网页上的文档页面,并尝试提供考虑了最新开发者库和更新等的代码,而模型本身并非总是最新的。有些人更喜欢用它来调试与特定库相关的特定问题,或者弄清楚如何精确地连接两个依赖项。我认为人们正是为了这些与编码相关的疑问而使用Perplexity的。

我觉得编码市场实际上是二分的,对吧?很多人喜欢在其编辑器(VS Code)、GitHub Copilot 上原生使用AI。有些人使用ChatGPT,因为它现在已经成为肌肉记忆,因为这是ChatGPT首次成功解决的重大用例,并因此占据了先机。有些人喜欢云端,因为你可以构建一个代码生成的工件,并可视化代码,以及它的前端。有些人喜欢Perplexity,因为它可以访问文档和库,有些人更喜欢这种方式。所以我觉得编码领域没有一家独大的赢家。人们会根据当时的具体用例选择不同的工具。

主持人Jim Rutt: 非常好。我要感谢你进行这次极其有趣的对话。尽管我对某些方面有一些小小的异议,但我还是要对所有听众说,请使用Perplexity。它很棒。如果你使用了,你不会后悔的。你可以从我这儿拿回你的钱,对吧?我真的认为Perplexity是我在过去一年中看到的任何类别中产品能力提升最惊人的产品。我知道你们在此之前就已经存在了,但我可能只是在六到八个月前才开始使用它。我只是觉得它太棒了。你们做得非常出色。解决掉那个提示吞噬问题,在我看来,你们将拥有一个A+的产品。非常感谢。再见。

参考资料: https://www.youtube.com/watch?v=IXn-R28E9S0,公开发表于2024-10-18

深度学习与NLP
专注深度学习、NLP相关技术、资讯,追求纯粹的技术,享受学习、分享的快乐。
 最新文章