红杉专访｜前谷歌搜索老炮、Glean CEO谈企业搜索引擎和RAG技术栈构建实务：AI如何管理企业的知识

文摘 2024-11-02 11:11 浙江

👇关注公众号后设🌟标，不错过第一手AI新鲜观点和动态

本文访谈内容整理自Glean CEO与联合创始人 Arvind Jain接受红杉资本 Youtube频道专访，公开发表于2024年10月29日。原始内容参考：https://www.youtube.com/watch?v=dvJOQvBkg_U

Glean CEO Arvind Jain接受红杉资本专访

★
内容导读：
专访中Arvind Jain主要阐述了以下观点：
企业级搜索的挑战与Glean的解决方案： 构建一个能够有效搜索和理解企业内部数据的系统极其困难，因为数据分散在多个系统中，需要处理权限、信息过时以及语义理解等问题。Glean 通过深度集成各种企业系统（Salesforce、Confluence、Jira等），构建权限管理层和知识图谱，并从一开始就整合语言模型（LLM）来理解语义，从而解决了这些难题。这与过去二十年其他公司在构建“企业版Google搜索”的失败尝试形成鲜明对比。
RAG（检索增强生成）技术在企业应用中的重要性及挑战： Glean 采用RAG架构，将企业私有数据与大型语言模型（LLM）结合，从而使LLM能够回答有关企业内部知识的问题。然而，RAG架构也面临挑战，例如检索环节可能找不到正确的信息，或者找到过时信息，以及LLM本身的幻觉问题。Glean 通过构建强大的检索系统和排名算法来应对这些挑战，利用用户行为数据等信号来提高检索和排序的准确性。
Glean的架构和技术堆栈： Glean的技术堆栈包含深度系统集成、权限治理层和知识图谱。在AI应用之前，必须先解决数据整合、权限管理和知识关联等问题，才能有效利用AI。Glean 将AI技术融入到核心搜索技术中，从一开始就利用语言模型理解内容语义。
Glean对企业工作方式的改变： Glean 改变了员工的工作方式，例如帮助工程师进行故障排除，帮助支持人员快速解答客户问题，帮助销售人员更好地准备和进行销售会议，以及帮助员工快速找到合适的专家。Glean 的成功衡量指标是用户提问的成功率，目标是达到80%。
Glean的未来发展方向： 未来五年，Glean的目标是成为企业中大多数工作的AI助手，不仅能够回答问题，还能主动提供帮助，就像一个高效的执行助理一样。Glean将通过用户反馈和手动创建的工作流程来学习，逐步实现更强大的自主推理能力。
针对其他AI创业公司的建议： 专注于解决重要的问题，不要过分担心竞争对手，因为即使所有人都在努力，仍然不足以解决所有问题。AI只是一个工具，关键在于如何将AI与业务问题有效结合。Glean 不会自己训练大型语言模型，而是选择与其他公司合作，专注于自己的核心竞争力，即构建强大的企业级搜索和数据平台。

Glean CEO Arvind Jain简介

Arvind Jain 是企业搜索平台 Glean 的 CEO 兼联合创始人。他是一位经验丰富的技术领导者，曾在 Google 领导了超过 10 年的工程团队，负责 Google Drive、Docs、Sheets 和 Slides 等关键产品的开发。

在 Google 工作期间，Arvind 敏锐地意识到现代企业在信息获取方面面临的巨大挑战。为了解决这一问题，他于 2019 年创立了 Glean，致力于构建一个更智能、更便捷的企业搜索引擎，帮助员工快速找到所需信息，提高工作效率。

Arvind 毕业于印度理工学院德里分校，拥有计算机科学硕士学位。他丰富的技术背景和对企业需求的深刻理解，使他成功带领 Glean 获得了超过 7,400 万美元的融资，并在短时间内赢得了众多知名企业的青睐。

访谈全文记录

主持人Sonya：今天加入我们的嘉宾是Arvind Jain，Glean的联合创始人兼首席执行官。在他职业生涯早期，Arvind在构建谷歌搜索方面发挥了重要作用，并且是Rubrik的联合创始人兼首席技术官。Glean最初是一家企业搜索公司，如今已发展成为一个通用的工作助手。将人工智能应用于企业环境非常困难，因为需要进行集成、权限管理、排名、解析以及其他使人工智能能够处理公司数据所需的所有“魔法”。Arvind今天加入我们，分享Glean是如何解决其他公司未能解决的问题的，以及作为首批成功的AI原生应用公司之一，他学到了什么。

主持人Pat： Arvind，非常感谢你加入我们。我们有很多关于RAG、智能体和知识图谱等方面的问题。但在我们开始之前，你能用一两分钟时间介绍一下什么是Glean以及你们正在构建什么吗？

Arvind Jain： 首先，感谢你们的邀请。Glean，你可以把它想象成企业内部的谷歌或ChatGPT。员工可以在Glean中提问，Glean会利用你的公司知识回答所有这些问题，无论这些知识位于何处，它都会将所有信息反馈给你。这就是Glean的功能。Glean也是一个AI平台。因此，如果你想在公司内部构建AI应用程序，你可以使用Glean Rack平台快速构建这些应用程序。

主持人Pat： 太棒了。既然你将它比作企业内部的谷歌，我认为这是每位首席信息官都描述为其圣杯的东西，我们已经有二十年的失败尝试来构建它。你之前实际上是谷歌的一名明星搜索工程师，甚至谷歌以前也从未成功地攻克这一领域，也许，你能谈谈为什么这是一个如此困难的问题，以及你们是如何做到的吗？

Arvind Jain： 好吧，我的意思是，搜索很难，因为它在某种意义上是“魔法”。你可以提出任何问题，并期望系统能够给出正确的答案。所以期望值总是很高。这是一个难题，尤其是在企业中，因为企业内部有大量信息散布在许多不同的系统中。获取这些信息本身就很难，更难的是理解哪些信息是有用的，哪些信息已经过时。

因此，在构建该系统方面存在许多挑战。过去，我认为没有做出很好的尝试，因为这个问题太难了。它需要大量的研发和投资，在许多方面都不利于初创企业。而且，在SaaS之前的时代，你甚至无法构建一个产品，因为仅仅连接所有企业数据就意味着你必须花一年的时间与企业一起工作，试图将数据导入你的搜索系统，然后才能解决真正的问题，即使这些信息可搜索。

主持人Pat： Arvind，我认为Glean如此有趣的一点是，你们可能是企业AI应用公司应该或能够展现出的第一个也是最好的例子之一。我们将把这次对话的大部分内容集中在Glean的AI方面。但是，我知道你们的技术栈有很多层。你们有基础设施、连接器、治理引擎和知识图谱。你能简单介绍一下在构建AI部分之前，你们必须构建的所有内容以使AI能够发挥作用吗？

Arvind Jain： 当然。正如你所说，搜索首先始于你需要真正进行搜索的数据和知识。因此，清洁技术栈的第一部分是我们与大多数常用企业系统建立的深度集成。想想Salesforce、Confluence、Jira、Google Drive、SharePoint、ServiceNow之类的系统。你的企业数据通常存在于所有这些不同的系统中，你必须将它们整合到一个地方。这就是我们技术栈的第一部分——数据集成。

但如果你考虑企业数据，这与网络上的Google搜索相比，是企业搜索最独特之处之一，那就是我们大多数企业信息本质上都是私有的。当你在Google Drive中创作文档时，这个文档可能对你来说是私密的，或者你可能与其他几个人共享，因此，你不能构建一个搜索引擎将所有信息都放入其中让所有人访问。相反，你搜索引擎的时候，它能够理解每个内容的权限。因此，当你进行搜索时，系统应该能够识别你的身份，并且只检索你实际有权访问的信息。这就是我们的治理层，它理解所有这些数百个不同系统的治理，这相当复杂。

然后是第三部分，这也是大多数产品过去失败的地方，搜索不仅仅是将一堆文档放入搜索引擎中。它不仅仅是将一堆文档放入索引中。然后，当有人提出问题时，它需要获取这些词语或问题，并将其在语义上或通过关键词与正确的内容进行匹配。你还必须了解提问者是谁。例如，我作为一个新员工可以要求一份入职指南，但应该给我提供哪份入职指南呢？这取决于我是否在市场营销团队或工程团队。

因此，理解人员、理解知识以及它们之间的关系，是使搜索或问答服务在企业内部发挥作用的重要组成部分。我们做到了这一点。我们实际上构建了一个深度知识图谱，我们查看所有员工，了解他们在公司中扮演什么角色，查看所有文档，然后我们试图理解哪些文档是针对哪些部门的，哪些文档实际上很受欢迎。是否存在某种关系？特定个人与特定文档之间有哪些关系？这就是我们用作核心基础的东西，它决定了当有人提出问题时，哪些知识片段对他们来说最相关。我们必须完成所有这些工作。

事实上，你提到了在AI变得流行之前发生了什么，这很有趣。对我们来说，AI从第一天起就是核心搜索技术的一部分。我们在2019年就开始使用大型语言模型（LLM）。或者，至少是语言模型。我们在2019年就开始使用大型语言模型（LLM）。我们在2019年就开始使用大型语言模型（LLM）。我们在2019年就开始使用大型语言模型（LLM）。这些是基于BERT的语言模型。是的，现在它们被称为大型语言模型（LLMs）。但是，在搜索工程社区中，我们当时只是称它们为语言模型。因此，语言模型从第一天起就是核心搜索体验的一部分，因为它确实使我们能够在语义层面理解内容。所以在我们核心的搜索体验中，从第一天起就已经内置了，当我们实际试图查看用户的提问时。我们从未受限于用户使用的确切关键词。我们能够理解问题背后的含义，并将其与正确的文档进行匹配。但即便如此，这仍然是你必须完成的所有工作，然后你才能使用大型语言模型（LLMs）做任何事情。

主持人Pat：你能谈谈排名吗？我认为让Google如此有效的部分原因是，我总是能在页面顶部找到我想要的答案。对于公共互联网，你拥有如此多的网络数据、链接等等，才能使排名真正有效。对于Glean来说，这在多大程度上是其成功的秘诀？你们是如何做到的？

Arvind Jain：是的，当然，产品的核心是我们为构建真正优秀的搜索排名系统所付出的所有努力。我将举一些例子来说明决定哪些文档最适合特定问题的排名需要考虑的因素。当然，如果您想象一下，公司里的人一直在查看某个文档，这显然就提供了一个信号，表明该文档一定有什么特别之处，比如它确实很重要，人们喜欢花时间阅读它。如果某个文档是在最近一两周撰写的，并且围绕它有一些互动，那么您就知道，这同样表明人们关心这些信息，它还没有过时。

然后，如果您考虑一下我们看到的特定文档并不流行的情况，比如，当您查看一家公司时，但您只查看公司内部的一个单独团队，我们会发现该文档在该特定团队内部被大量使用。这告诉我们更多信息，即该文档可能与这组特定的人员相关。或者最后一个例子，假设有人提出了一个问题，他们并没有费心去搜索，而是去Slack上提问。然后其他人发布了一个指向文档的链接作为回应，而提问者对此表示赞同。想象一下这种互动意味着什么，它实际上意味着该特定文档确实是用户提出的问题的非常好的答案。

因此，如果您记住这种关联，那么当其他人提出类似问题时，这将对您有所帮助。这些只是一些信号，我们必须不断寻找所有这些信号。它们在企业中的收集方式与网络上的收集方式不同。例如，谷歌只需要查看谷歌本身发生的所有活动，因为它是任何知识探索的入口。但如果您查看企业内部，并非所有事情都是通过搜索模式发生的。因此，您必须查看所有知识周围的所有活动，包括不同的系统，例如您的沟通系统、文档系统，并尝试从人类行为中学习。因为归根结底，这就是您学习的方式。您从人们在内部的行为中学习。您收集到的信息越多，您的排名系统就越好。

主持人Pat：我们能否花一分钟时间讨论一下RAG？正如帕特提到的，你们恰逢其时。你们已经完成了所有艰苦的工作，因此当大型语言模型变得非常出色时，你们已经具备了所有必要的基础设施。我认为你们一直是利用RAG使这些大型语言模型真正能够应用于公司内容方面的专家之一。你能向我解释一下RAG吗？就好像我是个五岁的孩子。成功的秘诀是什么？人们不谈论的事情有哪些？借助RAG可以做到哪些事情是普通聊天界面做不到的？

Arvind Jain：好的。首先，既然您提到五岁的孩子，让我们先谈谈什么是RAG。好吧，十岁的孩子……不，让我们保持在五岁。我需要五岁孩子的解释。让我们从五岁开始吧。好的。如果您考虑一下所有这些令人惊叹的模型，比如GPT、Gemini和Claude，这些模型都是基于世界公共知识和数据进行训练的。因此，如果您真的去和ChatGPT聊天并问一个问题，例如，“根据我的带薪休假政策，我能休多少天假？”它根本不知道答案。因为它无法回答这个问题，因为那是我们公司内部的私有知识。答案就在某个地方，但模型并没有在其训练数据中。

那么，您如何将您私有的企业数据引入这些模型，以便您可以真正利用AI创造奇迹呢？这很棒。这就是RAG（检索增强生成）架构允许您做的事情。它的工作原理是，您提出一个问题，然后您有一个搜索引擎或检索引擎，无论您称其为什么。根据您的问题，这个检索引擎会找到可能与您的问题相关的文档，这些文档可以用来回答您的问题。然后，您将使用这些文档或内容片段来让模型进行处理。您将告诉GPT模型，我有一个问题，并且我认为这些公司内部的知识与回答这个问题相关。现在，请使用这些知识来回答这个问题。

这就是如今大多数企业中AI应用程序的构建方式。将您的私有企业数据与这些语言模型的强大功能连接起来的唯一方法基本上就是一个置于中间的搜索引擎。因此，就像在Glean一样，我们当然在过去五年中构建了一个搜索引擎，用于搜索您所有的企业内容。这使得我们能够成为最好的RAG系统之一，它不仅允许我们交付我们自己的最终用户应用程序（Glean助手），该助手使用基于RAG的应用程序架构，而且我们还允许公司使用RAG构建越来越多的应用程序。我认为，就……

Arvind Jain：虽然这是一种正在成为构建AI应用程序规范架构的架构，但我认为它仍然充满挑战，使用RAG构建优秀的AI应用程序实际上非常困难，因为其中一件事是，模型本身虽然非常强大，但也仍然是一项新兴技术，对吧？模型会产生幻觉，会编造东西。而您现在所做的是实际上又添加了一层更复杂的科技，在该应用程序架构中，可以将其视为将两个都不完美的事物连接起来。

因此，通常您会看到基于RAG的AI应用程序表现不佳，因为您问了一个问题，而失败实际上发生在RAG的检索阶段，您甚至无法找到正确的知识片段，或者您可能找到了过时的信息，然后您才能找到正确的知识片段，然后您才能将其提供给大型语言模型进行处理。当然，它会给您错误的结果。因此，虽然这是将知识整合在一起的唯一方法，但它也为您带来了一些有趣的挑战。

主持人Pat： 让我问你一个问题。为了概括一下你对话开始时所说的内容，第一阶段是企业搜索，第二阶段是应用平台。对于第一阶段的企业搜索，企业搜索和RAG的概念是如何关联的？一个是另一个的超集还是子集？它们是相似但不同的概念吗？它们是同一件事吗？企业搜索和RAG这两个概念是如何关联的？

Arvind Jain： 我认为，从某种意义上说，搜索和RAG是同一件事。核心技术是将所有企业知识整合到一个搜索系统中，这样你就可以提出问题，系统能够提供相关的资料。这是核心技术。现在，你可以将这项技术用作独立产品，例如Glean搜索产品，用户提出问题，我们可以提供可能对他们有用的相关文档。或者，你也可以将其用作整体AI应用中的API层，其中搜索模块只是其中一个组件。所以，我认为从这个意义上说，两者很相似。

但另一方面，我认为我们今天在企业中看到的RAG应用程序大多使用更简单的检索系统，通常是基于向量搜索的系统，它并不具备完整的企业上下文。这就是我认为的关键区别。对我们来说，我们的方法一直是：考虑如何构建一个独立的搜索系统，一个可以作为独立产品直接提供给用户的系统。这才是衡量搜索好坏的真正标准。然后，当你在RAG应用程序中将其置于后台时，就容易多了，它实际上能够创造更好的AI体验。

主持人Pat： 那么，可以说你们在获得良好的搜索结果排名方面所做的“魔法”，就是你们让排名对用户来说很好。结果证明，让排名对用户友好，也是让排名对机器友好的必要条件，才能获得最佳结果。这就是为什么你们构建的东西与那些仅仅是自己动手搭建数据管道和小型检索系统的人所构建的不同。

Arvind Jain： 是的，这是正确的。我认为很难自己构建这些系统，并且在几周内完成。我认为，你可以在一天甚至两个小时内构建一个很棒的AI演示，但要构建一个健壮、稳定、真正为企业增值的系统，这是一个难题。

主持人Pat： 我们已经讨论过你们是如何构建产品的，我们知道它有效。我们知道公司年增长率超过三倍，我们内部也在使用它，还有很多满意的客户。从某种程度上说，成功的真正衡量标准在于你的产品如何改变客户的生活。因此，我很想知道，当你观察你的客户及其日常工作方式（使用Glean前后）时，你注意到哪些变化？这如何帮助人们完成工作？

Arvind Jain： Glean是一款被广泛使用的产品，用途多种多样，我们经常被人们使用Glean的方式所惊讶。我给你举几个例子。对于工程团队来说，他们发现Glean在故障排除方面非常有用。每当遇到障碍或问题，例如程序运行不正常时，Glean就成为了一个很好的故障排除工具。因为它是一个你可以发布问题的地方，而且大多数情况下，你不是第一个遇到这个问题的人，其他人之前已经遇到过类似问题。

因此，从其他人那里获取上下文信息以及他们之前如何解决问题，有助于你解决问题。这是工程团队的一个主要用例。对于某些角色，例如支持人员，他们的日常工作就是解答人们的问题。我认为像Glean这样的工具从根本上改变了他们的工作方式。因为默认情况下，他们不会考虑针对一个问题，去不同的知识库中寻找答案。相反，他们现在的第一反应是，当收到客户的问题时，Glean已经可以为他们解答这些问题了。所以，工作流程从尝试查找信息转变为验证AI给出的答案是否正确。

它确实帮助他们准备会议，然后很好地进行会议，因为客户总是有很多问题。因此，销售人员在进行会议时更有信心，因为如果有人向他们抛出难题，他们可以在会议中直接询问Glean，快速获得答案。事实上，在我们公司，我们不允许销售人员在电话会议中带上销售工程师，他们必须自己回答这些问题。这就是我们在最初几次电话会议中所推动的一种行为改变。这些只是一些例子，但总的来说，用例是无限的。我认为对每个人来说都通用的一个用例是，找到可以帮助你的人。这是Glean让大家更容易做到的一件事，我们帮助你根据你的问题与合适的主题专家联系。这是我们在公司中看到的每个人都大量使用的一个功能。

主持人Pat： 你们追踪的核心指标是什么？这些关于客户影响的故事很棒，我想知道你们如何客观地进行基准测试？

Arvind Jain： 我们的关键指标是每天有多少问题被提出并成功得到解答。我们成功地正确回答了这些问题。

主持人Pat： 所以类似于谷歌的搜索满意度指标，对吧？你能分享一些这些数字吗，或者你们更倾向于保密？

Arvind Jain： 我们有一个技术指标，我不知道它是否有意义，但我们倾向于将这个数字保持在80%。我认为这可以间接反映出80%的用户会话都成功获得了他们需要的信息。

主持人Pat： 你们是如何衡量这种成功的？是用户明确地点赞表示满意，还是根据你们提供的结果，用户采取了行动，而你们观察到这些行动？你们如何衡量成功？

Arvind Jain： 实际上是隐含的。我们会追踪用户的行为，例如在搜索中，用户提出问题后，点击了前两三个结果，并停留较长时间。这表明他们很满意，或者他们没有很快回来再次提问或进行搜索。这就是我们追踪用户是否成功的方式。

主持人Pat： 了解了。目前产品中缺少哪些功能，您认为这些功能能够提升用户的成功率？

Arvind Jain： 我认为，正如我们开始构建类似 ChatGPT 或 Glean 的产品时一样，这就像魔法。期望值是无限的。因为它不仅应该回答人们提出的任何问题，还应该执行他们要求执行的任何任务。因此，对我们来说，与其关注缺少哪些功能，不如关注如何在这个核心功能上取得成功，即准确地回答人们的问题，并随着时间的推移，准确地回答越来越复杂的问题。我们认为，无论是我们还是其他任何公司，距离产品真正愿景都还很远。我们希望 Glean 成为能够利用公司知识回答任何问题的 AI 助手，将来甚至能够完成你一半的工作。所以，我认为，我们可以说，我们可能只完成了 2% 的目标。就 AI 而言，我们仍处于非常早期的阶段。

主持人Pat： 所以你们只完成了 2%？我很想问一下关于自主推理的问题。作为红杉资本Partner，我们对此思考良久，我知道作为创始人，你也在思考这个问题。在编码领域，我印象深刻的一个结果是，使用检索增强生成（RAG），编码代理的完成率可以达到 3% 或 4%。但如果赋予它们更强的自主推理能力，完成率可以达到 14% 或 15%，这是一个数量级的提升。这仅仅是通过反思刚刚说过的话，或者选择最佳结果等等技术实现的。我很想知道你们是如何考虑将更强的自主推理能力融入到你们的产品中的，以及还有什么其他的方法可以帮助你们从目前的 2% 提升到你们希望达到的目标。

Arvind Jain： 是的，我想澄清一下，2% 是我随意说的，并非一个衡量的数字。我只是想表达目前还处于早期阶段，未来将会看到很多令人惊叹的事情。我只是在尝试解释这一点。

但就自主行为而言，我们正在做的一件事是首先尝试从用户那里获得大量输入。我们在 Glean 中有一个构建工作流程（workflow）的概念来回答复杂问题。目前，我们实际上需要用户的大量帮助来完成这个工作流程。例如，如果你提出一个问题，例如“帮我写一份关于我的团队所做工作的每周状态报告”，这是一个复杂的问题。

要弄清楚答案，你需要做几件事。首先，你必须理解“你的团队”是什么意思，你的团队成员是谁？你可能需要进入你的 HR 系统，找出向你汇报工作的人。然后是“工作”，工作发生在哪里？你需要对这些进行了解，然后从所有不同的系统中提取信息。我认为，我们目前正在做的就是尝试从用户那里获得帮助。我们会为一个复杂的问题创建一个计划，并尝试让用户输入信息，告诉我们是否正确。

有时，用户可以完全忽略我们的操作，并自己构建工作流程。我认为这对于我们构建未来的完全自主行为至关重要。我认为，你可以为特定的一组狭窄问题构建自主行为。但在 Glean 中，我们的应用范围非常广泛，人们可以提出各种各样的问题，他们想要执行的任务也多种多样，因此我们认为，首先我们需要学习，我们需要从用户手动创建的工作流程中学习。然后，构建这些模型，以便将来能够处理复杂的问题，并自动将其转换为自主循环或复杂的工作流程。这就是我们正在采用的方法。

主持人Pat： 所以你的意思是，由于你们应用范围很广，无法为每个可能的任务构建自主推理能力。因此，你们为用户提供了一个工作流程引擎，以便他们能够分别构建不同的自动化和不同的代理。

Arvind Jain：是的，然后你从中学习。所以，一旦你看到人们构建这些工作流程，它就能融入到训练数据集中，从而允许你根据人们提出的复杂问题自动构建新的工作流程。这些代理功能正在到来，但我还是要再次强调，如果你连简单的问答都难以应付，那么要完成复杂的任务就同样困难，因为你可能会出错。想象一下，一个代理程序将一个复杂的任务分解成10个单独的任务，那么你的错误率就会累积。如果每个步骤的准确率是90%，那么最终的准确率就会大大降低。所以，这令人难以置信，但我认为这仍然是我们正在努力的方向。我觉得人工辅助对于构建这些复杂的工作流程至关重要。

主持人Pat：Arvind，或许可以补充一点，对于听众来说这可能是显而易见的，但为了明确起见，我想说的是，第一阶段，即企业搜索业务，如何赋予你构建第二阶段，即应用平台或代理行为平台的道德权威或优势。人们可能不太清楚第一阶段如何通向第二阶段，你能就此说几句话吗？

Arvind Jain：通过构建搜索产品，我们立即为客户和用户创造了价值，从而能够解决企业中通常会遇到的许多复杂问题。首先是安全问题。以Glean产品为例，我们告诉客户，把所有数据都给我们，我们会尽力帮助你们利用这些数据。这是一个很大的要求，对于公司来说，信任一家新兴产品公司，并提供所有数据，而没有立即获得任何回报，并非易事。

这也是我们在过去五六年里看到的一些问题，很多公司浪费了大量时间。我们能够做到这一点，是因为我们有一个人们理解并希望部署的搜索产品。它已经部署了，Glean正在运行，并且已经连接到公司内部的所有企业数据。因此，更容易向客户推销，让他们将Glean作为其核心AI数据平台，因为我们不必再次说服他们提供所有数据，数据已经存在了。

主持人Pat：这可能不是一个完美的类比，但希望不会太差。特斯拉在自动驾驶方面具有优势，因为他们已经销售汽车。你们在交付AI代理方面也具有优势，因为你们已经销售了一个组织所有企业信息、使其可访问且安全的数据平台，这使得人们已经开始向其提问。要求它开始采取行动是合乎逻辑的下一步。

Arvind Jain：绝对正确。

主持人Pat：我认为你们还发布了一套API，允许开发者在Glean上进行构建。这可能是为了满足客户的需求。但是什么让开发者想要在Glean上构建而不是直接访问他们自己的数据呢？这可能与你刚才谈到的情况类似。

Arvind Jain：是的，客户想要构建的许多AI应用程序都需要利用存在于多个不同SaaS、基于云的SaaS系统中的数据。我认为，对于他们来说，首先将这些数据整合到一个地方，并使用这些数据构建搜索或检索层，这相当繁琐。集成很困难，理解权限和治理在这一点上非常困难。我认为，随着这些模型变得可用，并且开发者开始开发AI应用程序，他们意识到，虽然他们很兴奋地构建这些新的酷炫的AI应用程序，但他们意识到，构建一个应用程序，90%的工作实际上是他们不想做的枯燥的基础设施工作。例如，从所有这些不同的系统中提取数据，运行ETL和数据管道，然后在其上构建良好的搜索。

★
ETL 指的是 Extract, Transform, Load，中文意思是 提取、转换、加载。它是一个数据集成过程，用于将数据从各种来源（例如数据库、平面文件、应用程序等）提取出来，进行转换以满足目标系统的需求，然后加载到目标数据仓库或数据湖中。简单来说，ETL 就是把杂乱无章的数据整理成规范、可用的数据。

所以在真正开始使用AI之前，你会花费大量时间。因此，他们发现Glean非常有用，因为我们实际上解决了围绕ETL的所有问题，构建了出色的搜索，并在贵公司内部正确遵守治理，所有这些都为您完成。您只需要一个搜索API，就可以将所有精力都集中在您正在处理的业务问题上，以及AI如何帮助您实现您正在寻找的自动化。

主持人Pat：在某种程度上，你们在ETL方面所做的所有努力，以及将所有数据与数据治理结合在一起，让我想起了Snowflake。你们实际上是用文本数据和非结构化数据来做的，但这种公司可以围绕其构建应用程序的中心数据平台让我想起了Snowflake的故事。

主持人Pat：是的。Arvind，我们可以问你一个关于未来状态的问题吗？如果让我们畅想一下，五年或十年后，你认为Glean如何在企业内部发挥作用？更重要的是，如果你是一位典型的知识工作者，五年或十年后，你配备了Glean，你的生活将会是什么样的？

Arvind Jain： 这是一个很好的问题。我认为我们不妨将时间定为五年而不是十年。我认为，嗯，我的意思是，你知道，我的一个信念是，我们今天所做的绝大部分工作五年后将不再由我们自己完成。这适用于我，也适用于你，你知道，我们俩的工作内容大相径庭。但仍然，我认为，我们是知识工作者。我认为我们很多工作实际上将由这些令人惊叹的AI助手完成，它们在许多方面都比我们强大。就像，你知道，它们可以访问我们公司所有的数据和知识，它们拥有所有过去对话和会议的上下文信息，它们不会忘记任何事情。而且它们真的可以，拥有使它们能够在你的任何任务中都提供超强帮助的推理能力。所以这就是我们的核心信念，我们大部分的工作实际上将由这些AI伙伴或助手完成。

我们希望Glean成为工作场所中的那个助手，我们希望Glean成为你大部分工作发生的地方。我们认为还将发生变化的一件事是，如今，许多AI都是关于你去寻求这些AI代理的帮助。例如，你去问问题，然后得到答案。但未来，这种协助将是主动的。这就像，如果你想到你有一位行政助理，他们实际上会帮助你很多。他们的很多帮助是在你向他们寻求帮助时提供的，但他们的很多帮助实际上是主动的。他们告诉你下一步该做什么，他们管理你的日程，他们了解你工作生活的方方面面，并且引导你在一天中高效工作。我认为AI将使这种便利成为可能，无论你是什么身份。今天，公司里的一些高管拥有这种便利，但在未来，AI将更加主动。所以这是我们的目标。每个人都将拥有这些功能强大的基于AI的助手，这些助手将真正帮助他们完成工作。我们非常高兴将这种改变带到工作场所，并希望Glean能够成为世界上最成功的AI助手。所以这是我们的目标。

主持人Pat： Arvind，我们能稍微换个话题吗？我很想回顾一下，听听你对其他创始人的建议。你是最成功的应用级AI公司之一，我认为可能仅次于Copilot和Scale。你作为一家初创公司，一家独立的初创公司做到了这一点。我想你肯定也面临一些独特的挑战，例如OpenAI，它是你的供应商之一，也是你的主要竞争对手之一。也许可以告诉我们这种动态是什么样的？

Arvind Jain： 嗯，首先，从构建初创公司的角度来看，事实上，我已经在很多地方向你们编码了。就像，你知道，Pat，我记得你谈到整体软件市场规模为6000亿美元的那张幻灯片，但AI正在将这个市场扩大到15万亿美元或12万亿美元，一个巨大的数字。而这实际上，你知道，就是我们今天所处的现实，即我们所做的一切都将发生变化，从根本上发生变化。AI将成为一个关键组成部分，你知道，这将推动这种变化。

所以，首先，作为一名创始人，你知道，我实际上并不担心其他人正在做什么。因为即使我们所有人都在从事很多伟大的事情，这仍然不够。这仍然不足以解决我们必须解决的所有问题。所以这就是我的第一种心态。所以，你知道，我认为对其他创始人的建议就是我想告诉他们的这一点。如果你发现了一个问题，那就去做吧，别担心别人是否也在解决这个问题。因为，很可能其他人并没有。他们不会像你一样解决这个问题。

但对我们来说，你知道，回到Glean本身，你知道，对我们来说，动态就是这样，你知道，在我们存在的头四年里，我们一直在解决一个没有竞争的问题，你知道，没有人真正对我们正在解决的问题感兴趣。这是一个死气沉沉的市场。我们必须创造一个能够引发兴趣的类别，成为布道者。但我们知道我们正在解决一个重要的问题。但是，你知道，突然之间，ChatGPT出现了。搜索变得火热。

现在，事实上，你所接触的每个公司、每个品牌都想构建类似Glean的产品。那么这对我们来说是好消息还是坏消息？你怎么看待这个问题？你知道，从我们的角度来看，这并不重要。你知道，我们的感觉是，这对我们来说实际上是个好消息。现在每个人都感兴趣了。每个人都想购买我们的产品。是的，我们必须与许多其他供应商竞争。但我们认为，这就是我们将获胜的地方。因为，你知道，我们有愿望去解决这个问题。并且，你知道，专注于这个问题，继续努力。我们没有理由做得比其他人差。

主持人Pat： 我听到的部分内容是，创建一家AI公司就是创建一家公司，找到一个重要的问题并以引人注目的方式解决它。我很好奇，特别是考虑到这不是你的第一次创业，Rubrik显然非常成功，当然，你也是谷歌早期发展中非常核心的人物。构建AI公司有多少是仅仅构建公司，又有哪些是某种程度上AI特有的？

Arvind Jain： 这是一个很好的问题。我认为AI主要是一种武器库中的工具，也是其中一种工具。我不认为仅仅因为你在使用AI做某事，你的公司就突然变得不同了。事实上，我认为将不会有新公司不以某种形式使用AI技术。所以我的观点是，你必须找到你计划解决的业务问题。

你知道，你可以通过AI技术现在为你提供的技术，以更好的方式解决问题。所以我认为它实际上并没有改变，我认为它实际上感觉并没有什么不同。就像，你知道，我们也不认为自己是AI公司。

主持人Pat： 你会训练你自己的模型吗？我想也许更广泛地说，你如何看待Glean核心竞争力的起始和终止？如果你有100个研发人员，你希望把他们安排在哪里？

Arvind Jain： 我们没有训练超大型模型的计划。但与此同时，我们确实会为每位客户训练规模较小的模型。这些为单个客户训练的语言模型会处理他们自己的企业语料库，并开始理解他们的行业术语、表达方式、缩写、代号等等。所以，模型训练实际上是Clean Core技术核心组成部分，但它并非像训练GPT-4那样的模型。我们不做那样的事情，也没有这方面的计划。我们计划与许多其他优秀的公司合作，这些公司构建的是那种规模的模型。

主持人Pat： 太棒了。Arvind，非常感谢您今天加入我们。这是一次精彩的对话，我们非常感谢。

Arvind Jain： 谢谢你们的邀请。

👇关注公众号后设🌟标，不错过第一手AI新鲜观点和动态

往期精选

http://mp.weixin.qq.com/s?__biz=MzA5NTU4NDM2MA==&mid=2650003214&idx=2&sn=b00dcbee524af9ed6be94577b41f0f58

瓜哥AI新知

紧追AI业界一手观点、访谈、动态，点滴构建AI底层认知