一文读懂，为什么向量数据库是大模型时代的核心基础设施

文摘 2024-09-04 18:54 日本

北京时间2024年8月29日，亚马逊云科技举办的聚焦生成式AI线下研讨会正式落下帷幕。会上，向量数据库领军者Zilliz、大模型代表性企业智谱.AI、大语言模型应用开发平台Dify先后发表演讲。

活动中，Zilliz资深解决方案架构师沈亮做了主题为《超亿规模向量数据落地Zilliz Cloud最佳实践》的分享。

以下为沈亮演讲内容分享（在不违背原意的情况下略有删减和调整）：

01 .

为什么向量数据库会成为大模型热潮中的基础设施？

Zilliz是一家全球领先的向量数据库企业，旗下产品包括了开源向量数据库系统 Milvus以及商业化产品Zilliz Cloud。

之所以选择将向量数据库作为我们长期以来深耕的方向，主要得益于我们在AI时代的以下几个观察：

观察一：所有数据中，非结构化数据占比超过了80%，且增速极快

过去多年的互联网发展中，结构化数据的处理占据了主流。顾名思义，结构化数据是一种使用预定义和预期格式的数据，其字段、存储、输入、查询、分析，全都相对固定，典型代表如电商场景中的交易数据，所有的金额信息、购买产品、付款时间等都会有严格的字段定义。

但AI时代， IDC做过一个预测：到2025年，全球数据总量中将有超过80%的数据是非结构化数据。这种非结构化数据无处不在，其最常见的形式包括了语音、视频、图片、文档等。这些年来，最火热的短视频，就属于最典型的非结构数据。

观察二：结构化数据潜力已经被挖掘到极致，非结构化数据潜力仍有广阔空间

非结构化数据的处理基础是语义挖掘，而语义挖掘，在电商、社区内容推荐中，潜力巨大。

比如，用户在电商场景中搜索面包，如果仅以关键词维度进行搜索，那么吐司、贝果、欧包、慕斯等面包的细分品类，就可能会被忽略。但在语义与向量维度，它们之间具备极高的相似度，以此为依据，进行搜索结果返回，更符合现实场景中的用户需求。

观察三：如何处理非结构化数据，仍是限制AI发展的核心问题之一

非结构化数据具备四大特点：数量庞大、理解非结构化数据很困难、对非结构化数据进行搜索昂贵且计算密集、缺乏专业工具。

相较市场上已经发展了二三十年非常成熟的结构化数据处理工具，非结构化数据处理的需求增长，是近五年才出现的，其工具发展并不完善。

与此同时，非结构化数据量大的特征，导致其处理，往往需要投入很大的算力与存储的资源。举个简单的例子，同样是在上亿级的数据中进行搜索，结构化数据，因为分级、标签索引的存在，可以很快直达结果。但是非结构化数据，比如在上百部电影中找到特定画面，在没有向量数据库的情况下，检索过程将变得十分的复杂且庞大。而成本一旦增加，很多数据就不得不被迫丢掉，带来极大浪费。

观察四：向量，是挖掘非结构化数据潜力的核心途径

一个基础认知是：人与计算机，在如何认知世界，以及对事物的感知构建模式是不一样的。比如面对一只泰迪与一只金毛的照片，人类的认知中，他们会同样被归纳为狗，但在二进制的照片中，两张照片之间并不存在很强的相关性。

为了让计算机知道照片中的泰迪与金毛都是狗，我们需要用深度学习等方式，进行语义抽取，进而把文字与文字、文字与视频、文字与图片、视频关键帧之间进行关联，这一环节中，如何找到他们之间的相似度，载体都是向量。

观察五：向量数据库的门槛，实际上被极大低估了

如今，大家已经基本达成共识， AI 时代，一定会有一个数据库系统，那就是向量数据库。过去的一年中，甚至一度有两三百家数据库厂商，将自己定位成向量数据库公司，但其中至少八成，其实都是存在了很多年的传统数据库厂商。

但事实上，向量数据库，需要考虑如何历史海量数据做好向量化，如何构建索引、过程中怎么做存储、怎么做多路召回，怎么做好语义查询以及传统精确查询的兼顾，需要我们在高可用、可扩展性、查询与读写性能需要做非常多的优化。

通过与超过 5000 家企业用户共同打磨 6 年，Zilliz已经成为公认的向量数据库开拓者和全球领先者，旗下开源产品Milvus，在Github获得超29K stars，是全球最受欢迎的开源向量数据库之一。

02.

向量数据库落地的明星场景分析

技术的落地，总是需要与场景相辅相成，当前，向量数据库的明星应用场景主要包括以下几个：

场景一：toB 和 toC 的产品推荐和意图识别场景

该需求的典型场景是电商，我们经常会遇到评论、商品描述、商品推荐等海量非结构化数据。在这种场景中进行数据处理，往往会面临高并发访问，但用户的个性化推荐需求却往往需要我们在千万级的数据规模中进行毫秒级数据延迟，且其文本内容往往无重度垂类知识，需要集成 embedding model 对插入和查询文本直接向量化。

向量数据库，则在千万级数据规模的基础上，做到毫秒级数据延迟、每秒千次查询并发以及向量化的原生集成。

场景二：智能语音助手和问答机器人

大模型爆火带来了语音助手与问答机器人的第二春，在这一场景中，用户对召回率要求非常苛刻，往往需要叠加稀疏向量模型做更精准查询，并且需要支持频繁进行的数据修改，可以设置数据租户隔离和定期失效策略。

向量数据库，可以轻松应对亿级数据规模，满足98%以上的召回率需求；稀疏向量的多路召回。

场景三：自动驾驶

自动驾驶场景近年来爆火，不论是整车厂还是方案提供商，都需要应对海量数据的采集与处理，这些数据的形式多为视频模式，我们需要对这些视频进行预处理抽帧。在此之后，我们经常需要在某些特定的场景下寻找具备某一些特征的图片，比如雨天的十字路口、反光的水潭、夜晚的安全锥……这些数据往往样本量较低，重要性极高。如何找到它们并训练，传统方法可能需要维护一个超宽列的数据表以将所有图片中的实体都进行结构化和标量存储，每个样本挖掘任务要进行多次查询工作，每次查询耗时都在分钟级甚至小时级，且维护百亿数据量级的集群对运维压力非常大。

基于向量数据库，可以支撑百亿级的数据规模，十万级的返回结构，以及结合标量过滤的混合查询，并进行指定相似度的范围搜索。

03.

专业级场景，需要开箱即用的向量数据库服务

大模型爆火已经近两年时间，行业的关键词，也从单纯的技术维度向产品、落地等更多方向演进。面对越来越多的专业级场景，我们发现，市场正越来越需要一款开箱即用的向量数据库服务，也是因此，在开源数据库Milvus的基础上，我们还推出了面向商业级场景的Zilliz Cloud。

相比开源产品，Zilliz Cloud具备三大特性：全托管服务、高效索引、企业级功能。

与此同时，从商业化伊始，Zilliz Cloud就着眼全球市场，2022年8月上线内测版，2023年3月正式登陆北美市场，同时支持 AWS、GCP（Google Cloud Platform），2023年7月登录阿里云全面开启国内向量数据库云服务，2023年12月登陆 Azure。截至目前，Zilliz Cloud 已经实现包括阿里云、腾讯云、AWS、GCP 和 Azure 在内的全球5大云18个节点的全覆盖，成为全球首家同时提供海内外多云服务的向量数据库企业。

最新文章

Neo4j×Milvus：手把手教你搭建GraphRAG Agent

来一场数据集成技术与向量数据库的“双向奔赴”！

JinaCLIP×Milvus：手把手教你搭建多模态RAG系统

大语言模型鼻祖Transformer的模型架构和底层原理

面向生成式 AI 的向量数据库：架构，性能与未来趋势

Late Chunking×Milvus：如何提高RAG准确率

聊一聊：OpenAI o1完整版即将发布，你有什么期待？

手把手系列丨如何使用Milvus Backup备份向量数据

聊一聊：ChatGPT搜索引擎会取代谷歌和百度吗？

一文读懂什么是RAG，如何搭建多模态RAG降低大模型幻觉

AI校园新星直通车再启动：Zilliz助您踏上开源舞台

Milvus 表情包上线啦！加入开源社区，用表情传递热情！

算法打败文盲，我用向量数据库与RAG，做了个“鲁迅没说过”

报名进行中丨11月2日深圳Unstructured Data Meetup

手把手系列丨在Kubernetes部署Milvus开源向量数据库

GenAI 生态系统现状：不止大语言模型和向量数据库

Forrester Wave™ 向量数据库报告：Zilliz 进入领导者象限

年度重磅：「非结构化数据峰会」报名正式启动

如何处理海量数据？基于Milvus向量数据库的高度可扩展性

(内含福利!!)11月2日深圳Unstructured Data Meetup等你来！

智联招聘×Milvus：向量召回技术提升招聘匹配效率

还能报名：向心力｜中美 AI 应用与落地分享沙龙

里程碑丨Milvus在GitHub上的Stars数量突破30,000！

开源向量数据库性能对比: Milvus, Chroma, Qdrant

聊一聊：如何精确搜索到表达金桂飘香的古诗词

如何使用OpenAI文本Embedding模型构建AI系统

叮，这是一份来自Zilliz的近期活动高光回放

深度解读GraphRAG：如何通过知识图谱提升 RAG 系统

客户案例丨Milvus与CLIP模型在转转风控的应用

Milvus×Dify半小时轻松构建RAG系统

直播预告丨大模型与向量数据库会碰撞出怎样的火花

从Naive RAG到Agentic RAG：基于Milvus构建Agentic RAG

聊一聊：距离诺贝尔文学奖颁给AI还有多远？

孙悟空 + 红楼梦 - 西游记 = ？一文搞懂什么是向量嵌入

上海站nMeetup开始报名 | 10月26日下午，Zilliz与你相约Database+AI Infra

使用Milvus和Llama-agents构建更强大的Agent系统

不容错过：向心力｜中美 AI 应用与落地分享沙龙

知识图谱融入向量数据库，带来RAG效果飞升

Deep Dive丨多副本功能：提升QPS和系统可靠性

手把手系列丨如何利用 Milvus 实现多模态搜索

Forrester Wave™ 向量数据库报告：Zilliz 获评领导者象限最高分

我们是向量数据库的领军企业，我们只招TOP人才

快速实现AI搜索！Fivetran 支持 Milvus 作为数据迁移目标

如何全面洞察集群状态？Zilliz Cloud 发布监控告警系统新特性

如何更高效传输非结构化数据？Zilliz 推出全新数据迁移服务

直播预告丨Milvus在OPPO的语音与图像检索实践

Deep Dive | Zilliz Cloud正式推出 Serverless 版

科技企业如何做好全球化？Zilliz、Fotor、Answer.ai的经验与建议

活动预告｜Data Fun Summit 2024，Gen AI时代的向量数据库要怎么做

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉