一文读懂,为什么向量数据库是大模型时代的核心基础设施

文摘   2024-09-04 18:54   日本  
北京时间2024年8月29日, 亚马逊云科技举办的聚焦生成式AI线下研讨会正式落下帷幕。会上,向量数据库领军者Zilliz、大模型代表性企业智谱.AI、大语言模型应用开发平台Dify先后发表演讲。
活动中,Zilliz资深解决方案架构师沈亮做了主题为《超亿规模向量数据落地Zilliz Cloud最佳实践》的分享。
以下为沈亮演讲内容分享(在不违背原意的情况下略有删减和调整):
01 .
为什么向量数据库会成为大模型热潮中的基础设施?
Zilliz是一家全球领先的向量数据库企业,旗下产品包括了开源向量数据库系统 Milvus以及商业化产品Zilliz Cloud。
之所以选择将向量数据库作为我们长期以来深耕的方向,主要得益于我们在AI时代的以下几个观察:
观察一:所有数据中,非结构化数据占比超过了80%,且增速极快
过去多年的互联网发展中,结构化数据的处理占据了主流。顾名思义,结构化数据是一种使用预定义和预期格式的数据,其字段、存储、输入、查询、分析,全都相对固定,典型代表如电商场景中的交易数据,所有的金额信息、购买产品、付款时间等都会有严格的字段定义。
但AI时代, IDC做过一个预测:到2025年,全球数据总量中将有超过80%的数据是非结构化数据。这种非结构化数据无处不在,其最常见的形式包括了语音、视频、图片、文档等。这些年来,最火热的短视频,就属于最典型的非结构数据。
观察二:结构化数据潜力已经被挖掘到极致,非结构化数据潜力仍有广阔空间
非结构化数据的处理基础是语义挖掘,而语义挖掘,在电商、社区内容推荐中,潜力巨大。
比如,用户在电商场景中搜索面包,如果仅以关键词维度进行搜索,那么吐司、贝果、欧包、慕斯等面包的细分品类,就可能会被忽略。但在语义与向量维度,它们之间具备极高的相似度,以此为依据,进行搜索结果返回,更符合现实场景中的用户需求。
观察三:如何处理非结构化数据,仍是限制AI发展的核心问题之一
非结构化数据具备四大特点:数量庞大、理解非结构化数据很困难、对非结构化数据进行搜索昂贵且计算密集、缺乏专业工具。
相较市场上已经发展了二三十年非常成熟的结构化数据处理工具,非结构化数据处理的需求增长,是近五年才出现的,其工具发展并不完善。
与此同时,非结构化数据量大的特征,导致其处理,往往需要投入很大的算力与存储的资源。举个简单的例子,同样是在上亿级的数据中进行搜索,结构化数据,因为分级、标签索引的存在,可以很快直达结果。但是非结构化数据,比如在上百部电影中找到特定画面,在没有向量数据库的情况下,检索过程将变得十分的复杂且庞大。而成本一旦增加,很多数据就不得不被迫丢掉,带来极大浪费。
观察四:向量,是挖掘非结构化数据潜力的核心途径
一个基础认知是:人与计算机,在如何认知世界,以及对事物的感知构建模式是不一样的。比如面对一只泰迪与一只金毛的照片,人类的认知中,他们会同样被归纳为狗,但在二进制的照片中,两张照片之间并不存在很强的相关性。
为了让计算机知道照片中的泰迪与金毛都是狗,我们需要用深度学习等方式,进行语义抽取,进而把文字与文字、文字与视频、文字与图片、视频关键帧之间进行关联,这一环节中,如何找到他们之间的相似度,载体都是向量。
观察五:向量数据库的门槛,实际上被极大低估了
如今,大家已经基本达成共识, AI 时代,一定会有一个数据库系统,那就是向量数据库。过去的一年中,甚至一度有两三百家数据库厂商,将自己定位成向量数据库公司,但其中至少八成,其实都是存在了很多年的传统数据库厂商。
但事实上,向量数据库,需要考虑如何历史海量数据做好向量化,如何构建索引、过程中怎么做存储、怎么做多路召回,怎么做好语义查询以及传统精确查询的兼顾,需要我们在高可用、可扩展性、查询与读写性能需要做非常多的优化。
通过与超过 5000 家企业用户共同打磨 6 年,Zilliz已经成为公认的向量数据库开拓者和全球领先者,旗下开源产品Milvus,在Github获得超29K stars,是全球最受欢迎的开源向量数据库之一。


02.
向量数据库落地的明星场景分析
技术的落地,总是需要与场景相辅相成,当前,向量数据库的明星应用场景主要包括以下几个:
场景一:toB 和 toC 的产品推荐和意图识别场景
该需求的典型场景是电商,我们经常会遇到评论、商品描述、商品推荐等海量非结构化数据。在这种场景中进行数据处理,往往会面临高并发访问,但用户的个性化推荐需求却往往需要我们在千万级的数据规模中进行毫秒级数据延迟,且其文本内容往往无重度垂类知识,需要集成 embedding model 对插入和查询文本直接向量化。
向量数据库,则在千万级数据规模的基础上,做到毫秒级数据延迟、每秒千次查询并发以及向量化的原生集成。
场景二:智能语音助手和问答机器人
大模型爆火带来了语音助手与问答机器人的第二春,在这一场景中,用户对召回率要求非常苛刻,往往需要叠加稀疏向量模型做更精准查询,并且需要支持频繁进行的数据修改,可以设置数据租户隔离和定期失效策略。
向量数据库,可以轻松应对亿级数据规模,满足98%以上的召回率需求;稀疏向量的多路召回。
场景三:自动驾驶
自动驾驶场景近年来爆火,不论是整车厂还是方案提供商,都需要应对海量数据的采集与处理,这些数据的形式多为视频模式,我们需要对这些视频进行预处理抽帧。在此之后,我们经常需要在某些特定的场景下寻找具备某一些特征的图片,比如雨天的十字路口、反光的水潭、夜晚的安全锥……这些数据往往样本量较低,重要性极高。如何找到它们并训练,传统方法可能需要维护一个超宽列的数据表以将所有图片中的实体都进行结构化和标量存储,每个样本挖掘任务要进行多次查询工作,每次查询耗时都在分钟级甚至小时级,且维护百亿数据量级的集群对运维压力非常大。
基于向量数据库,可以支撑百亿级的数据规模,十万级的返回结构,以及结合标量过滤的混合查询,并进行指定相似度的范围搜索。
03.
专业级场景,需要开箱即用的向量数据库服务
大模型爆火已经近两年时间,行业的关键词,也从单纯的技术维度向产品、落地等更多方向演进。面对越来越多的专业级场景,我们发现,市场正越来越需要一款开箱即用的向量数据库服务,也是因此,在开源数据库Milvus的基础上,我们还推出了面向商业级场景的Zilliz Cloud。
相比开源产品,Zilliz Cloud具备三大特性:全托管服务、高效索引、企业级功能。
与此同时,从商业化伊始,Zilliz Cloud就着眼全球市场,2022年8月上线内测版,2023年3月正式登陆北美市场,同时支持 AWS、GCP(Google Cloud Platform),2023年7月登录阿里云全面开启国内向量数据库云服务,2023年12月登陆 Azure。截至目前,Zilliz Cloud 已经实现包括阿里云、腾讯云、AWS、GCP 和 Azure 在内的全球5大云18个节点的全覆盖,成为全球首家同时提供海内外多云服务的向量数据库企业。
推荐阅读

Zilliz
Simply The Fastest Vector Database for AI. Period.
 最新文章