对话 Zilliz 创始人 Charles:如何在AGI的浪潮下慢慢地快

文摘   2024-08-02 18:30   中国香港  


作者:Lynn

向量数据库是一种专门用于存储和检索向量数据的数据库系统,最早应用于推荐系统,代表性产品为 Facebook开源的 FAISS 插件库。随着技术的发展,一些标准化的数据库产品开始认识到向量检索的重要性,开始在各自的产品中集成一部分向量性特征,从而能满足一些简单的向量检索,但其性能和适用场景仍有较大的局限性,例如 Elastic Search 这种全量检索数据库也提供一定的向量的特性。在当下 AI 大模型技术不断发展的今天,向量数据库开始从幕后正式走向了前台,向量作为机器理解世界的数据形式,也可能会让向量数据库成为新的重要基建,由此也会诞生 AI 时代的大型数据库公司。


本期我们有幸邀请到全球第一家提供开源向量数据库产品的公司,也是最被广泛采用的全球领先的向量数据库厂商之一Zilliz 的创始人 Charles,请他和我们深入聊聊创办 Zilliz从零到一的心路历程及多年从业经验对于向量数据库未来应用的思考。


• 我们预计到明年,RAG的边界可能会进一步扩大。RAG不只是一项技术,更是一个现实世界中运行的商业模型,是私有数据和大型人工智能模型之间的桥梁。这个桥梁的好处是不需要频繁修改,可以在确定的时间和成本内获得确定且稳定的结果。


• 选择开源,是作为一个工程师最朴素的需求,希望好的技术可以交流和分享;对于企业而言,则是快速迭代产品、寻找新的客户的法宝。


• 我们选择持续降低成本来帮助视企业更好地应用向量数据库,今年我们把成本降低了 10 倍,未来五年我们认为至少能降低 100 倍以上,只有成本大幅降低,企业才会真正应用起来。


• 我们从第一天就认为我们会是一个全球化的企业,优秀的产品应该是全球领先者,你的野心有多大,也决定了你后面执行的特点。



以下是对 Charles 的访谈。

(为方便阅读,作者做了一些文本优化。)👇


Lynn:欢迎大家参加Google AI+的第11次嘉宾访谈。今天我们有幸请到了Zilliz的创始人Charles来聊聊数据库。让我先介绍一下我们的社群和今晚活动的背景。我是AI+的创始人Lynn。AI+是一个探索人工智能在各个垂直领域落地的AI创业社群。我们现有约2万名成员,包括AI创始人、投资人等。我们举办了一系列AI创投活动,包括深度AI闭门访谈、圆桌会、Demo Day等。我们还协助AI出海项目,关注北美市场和AI产品的全球化。今天是我们嘉宾访谈的第11期。我们想和Charles讨论几个话题:非结构化数据的现状和前景、开源社区和云的现状和前景、如何做开源社区商业化、向量数据库的角色和未来等。现在也请今天的co-host一豪介绍一下自己。


一豪:我是弘毅基金的合伙人一豪。我们基金主要在全球范围内投资华人参与的项目。我们很关注AI领域的变革,希望通过今天的机会了解数据库和模型应用未来可能解锁的商业机会。我们也想听听Charles作为创业者在全球化和逆全球化浪潮中寻找机会、制定产品和增长策略的经验。




01.


非结构化数据的行业需求及向量数据库的角色


Lynn:谢谢一豪。让我们正式开始今天的访谈。首先我们想请Charles谈谈非结构化数据的现状和未来应用。请问现在哪些行业对非结构化数据的需求比较强烈?能否举个具体例子?


Charles: 谢谢。我认为我们可以换个角度来看这个问题。实际上我们可以观察新一代AI大模型在哪些行业有迫切需求。过去一年多我们看到各行各业对新的AI大模型都有强烈需求,包括传统行业如金融、电信、法律、能源,也包括新兴的互联网公司。从老牌的BAT、Google,到过去十多年崛起的Airbnb、Uber、DoorDash等,都在积极拥抱AI。每个行业都认识到AI可以帮助改善用户体验、提升效率。他们也担心如果不及时拥抱AI,未来会面临挑战。作为新一代AI的基础数据底座,向量数据库受到各行业的迫切需求。但不同行业在部署大规模AI应用时可能处于不同阶段。


Charles:一些AI原生设计的公司在工具链和软件栈上已经全面AI化。过去十多年兴起的移动互联网公司可能已经较好地适应了云环境和高速扩展的业务场景,它们拥抱AI会更快一些。传统大企业虽然高层决策者也想拥抱AI,但在工程师团队和基础设施方面可能需要更多时间转型。


Charles:向量数据库是伴随企业AI转型的必要组件。AI有三大核心技术支柱:算法、算力和数据。算法和算力方面有OpenAI等公司在解决。在数据领域,向量数据库已成为为AI提供非结构化数据语义存储的共识。企业在拥抱AI的过程中,通常是先确定算力,再做好算法模型,最后需要用向量数据库来管理海量数据。


Lynn:非常感谢Charles的洞见。从横向来看,如果我们推演几年后大模型应用变得非常广泛,不管在企业侧还是端侧都大量应用,传统数据库以及非常云化弹性的设备会是什么样的格局?


Charles:从最抽象的层级来看,世界上的数据基本可以分为两类:结构化数据和非结构化数据。过去50多年的信息化浪潮中,我们处理了大量结构化数据,并发展出很多处理方法。而在即将到来或正在到来的AI革命中,处理的数据类型已从结构化数据转向非结构化数据。


Charles:我们要用AI代替人处理自然界的数据,而自然界的数据都是非结构化的,包括语音、图片、文字、视频、用户行为、地理位置,甚至分子、蛋白质、晶体的三维结构等。人工智能的本质是用机器代替人做出决定,同时也要用机器代替人处理这些数据。


Charles:世界上80%的数据都是非结构化数据。过去50年我们尽了很大努力,但也只能把不到20%的数据变成结构化数据,因为这个过程成本很高,难以扩张。剩下超过80%的非结构化数据需要用机器来处理。


Charles:我们看到Oracle、Microsoft、Google BigQuery、Databricks、Snowflake等公司的总市值可能超过1万亿美元,而非结构化数据的市场空间可能比这个还要大5到10倍,而向量数据库则是非结构化数据管理和分析的核心技术支柱。


Charles:从人类文明的角度看,有这么多非结构化数据没有被处理,这个市场一定比结构化数据大得多。向量数据库是专门为非结构化数据量身定做的新技术,没有历史包袱,可以完全抛开结构化数据的约束。我判断在未来5到10年,随着AI的深入发展,非结构化数据整个生态的体量可能是结构化数据的几倍以上。这个领域会产生下一个Oracle、下一个Databricks、下一个Snowflake。




02.


企业采用非结构化数据的场景


Lynn:非常有意思的观察。那么企业最先采用的非结构化数据是什么样的?这些数据一般在什么场景下产生,企业又是如何运用的?


Charles:在过去一年多,我们看到非结构化数据应用已形成一个标准方式,就是我们常说的 RAG(Retrieval Augmented Generation检索增强生成,RAG 通过在生成文本输出之前先检索大量相关信息,然后将这些检索到的信息作为上下文输入到模型中,从而生成更准确、更具体的回答,缓解幻觉问题),也就是基于语言模型增强的人工智能生成。去年主要是处理企业内部的文本数据。现在更多的大模型已具备跨模态、多模态的处理能力,可以处理企业内部的图片、视频等数据,让模型获得更好的知识,从而做出更好的决策。


Charles:我们预计到明年,RAG的边界可能会进一步扩大。RAG不只是一项技术,更是一个现实世界中运行的商业模型。每个企业都有很多私有数据,而大模型最初是通过互联网上的公开数据训练的,可能对企业的私有数据一无所知。企业认为这些私有数据是核心数字资产,不愿也不能把这些数据提供给大模型厂商。因此,RAG成为公有数据和私有数据之间的桥梁。未来只要有私有数据和大型人工智能模型,就可能需要这样一个桥梁。这个桥梁的好处是不需要频繁修改,可以在确定的时间和成本内获得确定的结果。




03.


技术积累与商业机会


一豪:Charles提到了一个关键点,就是RAG技术结合模型对非结构化数据的理解和搜索能力,甚至可以很好地架接在传统结构化数据的解决方案中。作为向量数据库的核心技术点,对数据本身特别是非结构化数据的向量化、精炼和压缩,我相信Zilliz等公司有很多独门技巧和技术积累。随着数据量的进一步爆炸,终端设备对多模态非结构化数据的收集量可能呈指数级增长,这种能力本身会对商业业务的成本控制产生最大影响。Charles能否谈谈你们在这方面的技术积累和看到的机会?


Charles:您提到的数据压缩、向量化、精炼等其实属于整个非结构化数据处理生态的范畴。如果把现代数据库企业定义为像Snowflake或Databricks那样,那么您说的数据向量化其实是新型非结构化数据的transformation,类似于传统数据的ETL(即 Extract提取、Transform 转换 和 Load 加载)过程。这个过程不应该是向量数据库厂商去做的领域。


Charles:在这一块我们会积极与生态企业合作。比如我们与上游大模型厂商合作,他们通常有embedding模型,可以将各种非结构化数据转化为向量数据的表达方式。我们也在与全球流行的数据处理框架如Fivetran(一个云端的全托管数据集成平台,专注于自动化ELT过程,可以自动处理增量数据复制、调度、负载均衡等任务,简化了数据工程师的工作)、DBT(一个开源的数据转换框架,专注于SQL-based的数据工程,允许数据分析师和工程师使用SQL编写数据转换逻辑,并将这些转换组织成可重用的模型)合作,他们之前提供了许多结构化数据的transformation pipeline,现在也在做非结构化数据的pipeline。


Charles:作为一个向量数据库公司,我们更专注于做好自己应该做的事情。向量数据库内部还有很多可以优化的地方,包括成本、性能、可扩展性等方面。至于数据向量化,我们更多地会与上下游生态合作,形成共赢。


Lynn:明白了。Charles你能给大家描绘一个具体的场景吗?因为大多数朋友并不是做向量数据库的。如果一个企业用RAG连接自己的数据库,来达到类似于Fine Tuning的效果,向量数据库在这里面扮演什么样的角色?


Charles:我们就举一个关于视频的一个例子,你比如说很多企业内部会开很多的会,可能有内部的会,还有对外的会,可能销售里面要开很多的这种客户的会议。那么之前就是开完这个会议,可能会因为想对质量有把控会把会议录下来,但是实际上很少有人对这些内容去做分析。如果向量数据库和AI模型,就可以解锁这些视频内容。例如在过去一年我们跟销售开了一百个会议,我们可以分析这些会议里面有哪些是大家比较赞同的决定。过去开会的内容,可能要通过大量的人工分析,然后再记录到内部的系统里面,但现在可以通过数据库检索和AI模型直接去问,检索到底发生了什么,甚至包括当时双方的交互的情景是什么样子的。


Charles:有了向量数据库和AI检索,我们可以更容易地找到特定的图片或视频内容。比如我们几年前去九寨沟旅游了,但是时间久远很难在相册里找到了,有了向量数据库我们就可以通过数据库检索技术找出来。


Lynn:目前Zilliz已经可以支持多模态的搜索了对吗?


Charles:我们在五年前就做到了。这对于企业来说是一个非常大的突破,因为很多企业对他自己的多模态数据有一个非常强的检索需求。


Lynn:那其实咱们如果要是打一个不恰当的比方,咱们现在和Glean的这个站位大概是做比较的话,大概是一个什么样的情况呢?


Charles:Glean更多的是处理企业的半结构化数据,如Slack、Teams、邮件、Jira、Conlfuence等文本类的数据,且更多是服务企业内部的经营数据的半结构化分析,他最大的竞争对手是Elasticsearch。而我们能够处理更复杂的非结构化数据,不仅能够处理图片、视频,还包括分子的三维结构、蛋白质的三维结构等,这些是在他们的能力边界之外的。


Lynn:那我们接下来聊一聊软件开发。Charles提到,各行各业都在应用大模型,大企业有更长的内部流程和对工具的审核过程,而小企业可能更灵活,但对成本更敏感。我们现在接触的客户中,哪一类型的公司是我们现在接触下来最快可以成为用户的类型?


Charles:我们目前有两个产品,一个是开源产品,一个是云的产品。对于开源产品来说,所有用户都比较容易去使用。在过去的五年多的时间里面,我们在全球也积累了超过一万家企业级的用户在使用我们的开源Milvus。所以如果企业内部有IT人员能够把数据库运营起来的话,入门门槛是比较低的。


Charles:我们的另一款商业化产品Zilliz Cloud是一个在云上面全托管的数据库服务。我们看到优先做的这些Early Adopters是在过去十多年里面,天生把大部分的业务都跑在公有云上,伴随云技术成长而发展起来的公司。而我们通过在公有云上提供一个向量数据库的服务,无论从使用场景的切换还是到采购、安全合规等方面,早就已经完成了市场的教育,接受度很高。


Charles:在这里面还有一堆企业就是AI的Native企业,因为AI的Native企业里面,它的公有云的使用率会更高。我们看到现在很多GenAI的企业来说,他们现在还比较小,处于一个比较早期的阶段,但是我们也愿意跟他们一起去成长。我们发布了我们自己的扶持的计划,对于这些AI的初创企业,我们有免费的credit的赠送,也有针对中小开发者,在一定的数据量范围之内,我们是一个永久终身免费的一个方案。


Charles:我们是坚定的认为,在接下来的五到十年里面,在这一波的GenAI的初创企业里面,会诞生下一个百亿美金甚至千亿美金的超级独角兽。我们愿意跟他们一起去成长。其实我觉得开源的意义在于,它是工程师最朴素的一个需求,就是希望好的技术能够交流,能够分享。尤其是对一个初期的startup来讲,得到用户的反馈是相当相当重要的。我们19年就把向量数据库开源了,我们是全球第一家开源限量数据库的产品Milvus。


Charles:我们19年底就拥有了差不多有50家这种企业级的客户在使用,然后他们给我们反馈,而当时我们的团队不到30人。你很难想象一个 30 人的团队在产品发布的半年之后就能得到50家企业的使用和反馈,而且这里面不乏有非常大规模的企业。到了2020年底,我们全球就有300多家企业在使用我们的产品。他们在使用的过程中,每一天给我们提了很多新的feature,也提了很多的issue还有bug,帮我们去改进我们的产品。所以我觉得开源对于一个企业来讲,快速迭代产品,快速地寻找新的客户,让你的PMF快速的知道你应该把资源聚焦在哪一个领域是很有帮助的。




04.


开源社区与商业化的平衡


Lynn:我觉得这个说的特别好,因为开发者工具其实有很多,但是事实上真正去做开源的这种社区的,尤其是做的比较大的,其实这样的企业还是比较少的。那么当初在起步的时候就这么坚定的去选择开源,然后这么短的时间能获得这么多产品反馈。其实让我想到那个小米的例子,小米刚开始也是早期他开放了这个网站,把自己所有的这个设计全放上面,然后收集了很多很多的用户反馈,然后以这样极快迭代速度去抢占市场。那我也想问下在企业起步的初期,你们是什么平衡产品的商业化和维护好开源社区这两件事的呢?以及到了后期又是如何将开源社区转化成这个企业层面上的商业化的?


Charles:我之前声明一下,可能不适合说所有的企业。我们很简单,在公司成立的前五年完完全全放弃商业化,我们只做一件事情,我们的能力也不够,我们做不好两件事情,那我们就先把第一件事情做好。同时我们认为如果你的产品真正做得好,你的技术真的是先进,能够帮用户创造价值,挣钱商业化是一个水到渠成的事情。因此我们前期在开源和社区运营这方面下了很大的功夫,等到第五年以后,我们的开源社区产品做到很好的一个阶段,我们才考虑商业化的进程。


Lynn:这个确实是很艰难的选择,在刚开始人员和资源有限的情况下,你只能选择去做好一件事。另外我还有一个问题,对于任何一个企业而言,五年都是一个不短的时间了,我们如何说服我们的投资人跟我们一起走完这个打磨产品的旅程呢?以及后面开始商业化之后,我们的增长曲线是什么样的呢?


Charles:首先你一定要找到一个跟你有共同愿景的投资人,找到了合适的人不用多说,一个眼神就足够了。第二个我们前期去搭建整个社区,我们在全球已经拥有了一万多个企业用户,因此在后期也就是过去的两年,我们一旦开始商业化,增长是相当相当快的。


Charles:另外其实我想补充一点,很多事情你看上去是慢,其实后面就是快。我们看到在过去的两年里面,向量数据库这个领域火了之后,很多公司纷纷说自己是向量数据库,或者转型做向量数据库,竞争是非常激烈的。但是我们其实内心很平静,我们非常有自信,我们的自信就在于过去五年我们都在做研发,我们积累了上百个用户场景,有一万多家企业级的客户帮我们去打磨我们产品,这是我们最基本的自信。


一豪:这个我觉得也非常有感触,作为投资人,我们往往看到每季冲到头来,先行者总是得到市场的补偿,但这个只有早晚,最后优秀的产品一定会到市场的认可。在这里我也想替投资人去问的一个问题,过去我们有很长的时间都是针对开源社区的搭建,在我们转向这个商业化过程中,配套的组织形态、人才的搭建和内部的 KPI 以及整个企业的目标制定上有怎么样转化过程?那这个转化过程中我们遇到过什么样的一些问题?


Charles:挑战肯定是多方面的,而且我们也不是说到了某一天突然开始 180 度大转弯开始要做商业化,经过5年开源和社区运营的积累后23年开始商业化,然后我们也在社区团队之外开始搭建我们的市场、销售团队。从 KPI 的分配上,我们一定要清晰职责,比如千万不能让负责社区的成员去背营收的 KPI。我们到现在也不是一个完美的状态,也还在不断迭代我们的组织架构和团队能力模型。


Lynn: 对于创业公司,在每个阶段找到清晰的定位是很不容易的事情,我也很好奇我们当时有哪些信号或者观察来告诉我们,现在是可以做商业化了呢?


Charles:第一个是我们对数据库产品有了一个成熟的评价体系:能够满足企业的需求的、高拓展性、能保证运维和数据安全的。第二个是我们看到了 AI 方面的技术成长,我们明白非结构化数据的处理将会迎来一个爆发式的需求增长,因此我觉得在我们产品成熟和市场需求爆发的双重前提下,我们应该迈出商业化这一步。


Lynn:我们可能先跳回来产品思路这里,之前你有提到过要把整体向量数据库的TCO(total cost of ownership)降下来,这个是一个听起来很反直觉的事情,因为大部分的人可能都希望能因此能收更多的钱。我想请教下你在这里面的思考,以及利用 AI 技术本身,我们的开发成本是不是也大幅降低了呢?


Charles:其实我们今年就把成本降低了 10 倍,我们认为未来五年至少能降低 100 倍以上。其实在过去这么多年,不管是电脑还是手机,单位能力的成本都已经降低了上百倍,那回归向量数据库本身,我们大幅降低成本之后,企业才有应用的可能,也才会把数据放到你的平台上来进行分析,这样才能把市场慢慢做大。




05.


全球化视野与本土化实践


一豪:我想问一个在现在这个环境下既敏感又重要的话题,就是在当下的全球化背景下,对于企业全球化,在人才和资源储备层面需要具备怎样的素质和基础?


Charles:我的回答可能只是一家之言,也跟我自己的经历和企业发展历程有关,未必适用于所有人。15 年我在硅谷工作的时候就发现了非结构化数据处理的机会,当时看到在亚洲或者说在中国当时的市场空间是很大的,但是在海外反而比较少,所以我也就回到中国开始起步。但是我们的想法又跟硅谷的很多公司很像,硅谷其实没有“出海”这个概念,大家觉得全球应该适用于一个通用的技术和产品,他们不会说出海什么东西,他们就觉得只要你的产品做得好,全球都应该是你的市场。所以我从一开始也没有所谓出海不出海的概念,我觉得我们应该是一家全球化的公司,因此我们的团队也一直是按照这个标准来进行搭建的。我们到 21 年也成立了硅谷的全球总部。对于我们而言也是一个比较容易但也很坚决的决定,我们就应该是一个全球化的公司。


Charles:另外对于一些正在成长期或者说在考虑要不要做全球化的企业,我觉得可能有这几点可以分享一下。第一个点是,如果要做全球化,一定不能假手于他人,创始人、CEO 一定要冲在第一线,CEO 在哪里,哪里就是总部。


Charles:第二个就是全球化其实是无数个本地化的组成,首先北美是一个相对比较统一的市场,包括美国和加拿大;欧洲是一个既统一但内部差异性又非常明显的市场,比如英国跟欧洲大陆就是分割的,也是完全不同的两套体系,然后在欧洲大陆内部,每个国家的使用习惯、语言文化、对于新兴技术的应用也是不同的;回到亚洲,差异更明显了,日本、韩国、新加坡和东南亚等等又是完全不同的,都需要做很强的本土化,比如第一时间你要解决语言的适配,如果你连本土化都不做的话,他们会高度怀疑你在这个市场里面的这个投入度,跟长期投入的坚定性,谁都不想说我买一个产品,结果你这个公司两年以后退出我这个市场。另外在人员架构和销售的方式上可能也会有所不同。


Charles:第三点就是对于现在AI 的技术浪潮,未来技术的国界可能会更淡化。虽然现在还是有很多质疑的声音,认为AI也不能解决我们百分之百的事情。但其实这一波的AI革命已经比上一次的移动互联网革命十倍的速度在发展了。如果说我们上一波移动革命总共从2008年到2023年总共花了15年以上的话,其实现在来说的话,AI去年(2023 年)是第一年,等五年再过来看的话就会完全不一样。而在这里面,全球化是每一个开发者应该有的一个视野和胸襟。对很多地方来讲,我觉得我们中国的工程师其实做得很不错的。很多人可能就是习惯了盯着自己家里面的一亩三分地。但是硅谷的工程师不是看的,他们从来没有一天会把市场分成什么国内市场跟国外市场,他们觉得这理所当然的,就是说我把这产品做好以后,我就应该是全球的领先者,全球最大的player,他们甚至在很早期就会在全球去部署他的商业化的团队,从美国到欧洲到亚洲到澳大利亚,我觉得这是咱们中国的开发者应该是要去借鉴去学习的,可能是你的野心有多大,决定了你后面的执行的特点。


Zilliz发起“AI初创计划”,是面向 AI 初创企业推出的一项扶持计划,预计提供总计 1000 万元 的 Zilliz Cloud 抵扣金,致力于帮助 AI 开发者构建高效的非结构化数据管理系统,助力打造高质量 AI 服务与运用,加速产业落地。

详情请访问zilliz.com



最后,感谢您的围观,如果你对AI创业充满热情,或者想进一步了解AI的行业动态,欢迎加入我们的社群。


社群简介

【硅谷AI+】


【硅谷AI+】是一个全球化的A!创业社群。以硅谷为起点,连接世界各地的AI创业者,共同揭秘AI创业的现状、机遇与挑战。


社群汇聚了5000+AI的行业翘楚。成员中既有已经成功打造独角兽企业的创始人,也有人工智能的领袖、教授和研究员,还有各行各业利用AI赋能企业应用的能人志士。


我们举办了一系列A!的创投活动,包括AI圆桌、demoday、嘉宾分享,social mixer等等。接待过一系列从中访问的团队,包括但不限于,上市公司董事长,流浪地球团队与郭帆导演,国内知名投资人等等。同时协助AI出海项目的相关业务,包括营销,企业销售,增长,PR等等。


如果你想加入,或深度参与我们的社群,一起认识更多AI行业的专家,投资人和创业者,欢迎报名加入我们。

推荐阅读

Zilliz
Simply The Fastest Vector Database for AI. Period.
 最新文章