大模型时代下，向量数据库的野望

科技 2024-10-14 11:11 北京

自ChatGPT爆火，国内头部平台型公司一拥而上，先后发布AGI或垂类LLM，但鲜有大模型基础设施在数据层面的进化，比如向量数据库。

在此之前，向量数据库经历了几年的沉寂期，现在似乎终于乘着ChatGPT的东风成为资本的“宠儿”。然而，一年狂飙之后，市场逐渐退潮，因此有人质疑，向量数据库又凉了？

判断一条赛道是否真的有潜力，资本的注入虽是前提，但更重要的还有市场的态度。大模型应用的逐步落地于向量数据库而言，无疑是最好的催熟剂。

然而任何新技术的到来，都需要更长的时间才能得到市场的接受。

一份关于向量数据库的市场研究是，随着AI应用场景加速落地，据西南证券分析，预计2025年向量数据库渗透率约为30%，其中，中国向量数据库市场规模约为82.56亿元。而据中国信通院测算，到2025年，中国数据库市场规模将达688亿元。这意味着，两年后向量数据库在中国的渗透率将超过10%。

在国内，不少数据库厂商都在尝试推出向量数据库产品，然而从市场验证阶段走向实现盈利，中间还需要一段更漫长的时间。向量数据库究竟是虚火过旺还是星辰大海？在向量数据库这条赛道，能否看到更远的未来？

向量数据库刚刚开始

向量数据库，顾名思义，是一种专门处理向量数据的数据库。在传统的关系型数据库中，数据通常以表格形式存储，而向量数据库则将非结构化数据（如文本、图像、音频等）转换为向量形式进行存储。这种数据表示方法使得向量数据库能够高效地处理大规模、高维度的数据集，为AI提供了强大的计算基础。

如果说数据库是数据的“硬盘”，那么，向量数据库就是更适合AI体质的“硬盘”，其“AI原生”的体质，具体表现在以下几个方面。

首先，是更高的效率。AI算法，要从图像、音频和文本等海量的非结构化数据中学习，提取出以向量为表示形式的“特征”，以便模型能够理解和处理。因此，向量数据库比传统基于索引的数据库有明显优势。

其次，更低的成本。大模型要从一种新技术转化为产业价值，必须达到合理的投入产出比，而向量数据库可以有效减少存储和计算成本。一个公开数据是，通过腾讯云向量数据库，QQ音乐人均听歌时长提升3.2%、腾讯视频有效曝光人均时长提升1.74%、QQ浏览器成本降低37.9%，就在于检索效率、运行稳定性、运营效率、推荐算法等，有了较大的提升。

第三，更强的数据安全。企业想做大模型，还要确保数据的隐私安全，就必须与数据库产品做好配合，这给向量数据库的本地部署带来了广阔的需求。

第四，更大的扩展性。随着大模型走向行业应用，垂直领域的AI用例不断增多，汹涌的数据洪潮和存算任务，会带来大量向量搜索的需求。而向量数据库嵌入向量的长度不受限制，具有良好的扩展性，可以根据AI用例和模型而变化，更好地处理大规模数据集。

从大模型技术标杆的OpenAI发布的GPT-4o和即将发布的GPT-5消息来看，以及国内外商业化大模型的进展来看，大模型的技术路线还没有发生颠覆性的变革，因此落地应用还是需要向量检索和向量数据库。

由此可见，向量数据库与AI的关系紧密相连。在大模型兴起之前，传统数据库已经在不断尝试与AI结合，主要涉及以下几个方向：数据存储与管理、数据清洗与预处理、数据检索与查询、数据集成与共享、数据安全与隐私保护。随着大模型的兴起，可以看到在这些方向上，数据库与AI间的关联比以往任何时候都要密切。

此外，AI 大模型的兴起还为数据库注入了预测估算的能力。AI模型可以通过学习历史数据和模式，对未来的趋势和结果进行预测和估算。传统数据库可以集成AI模型，实现对数据的预测分析。这使得数据库可以不仅提供对历史数据的查询和分析，还能够提供对未来数据的预测和估算结果，帮助用户做出更准确的决策。

总的来说，几乎所有类型的数据库都在积极向AI靠拢，比如在数据库中添加向量索引，数据库和AI已经密不可分，两者相辅相成，共同推动着技术的进步和应用的拓展。

两大新势力 云是方向

传统数据库厂商不必多说，既有相应的能力建设，也有一定的客户基础，推出相关产品是必然。一些在AI领域积淀已久的科技大厂，如谷歌、微软、Meta、百度等大厂，都有向量数据库的技术积累，也都可以向外输出相关能力和产品。

除了这些常规面孔，向量数据库市场也吸引了新的参与者。作为这一轮大模型投资热和创业热的主要目标之一，向量数据库领域诞生了不少创新创业公司。比如AI创业新秀Pinecone就是闭源的领跑者，凭借良好的开箱即用的产品体验，获得了非常大的增长，B轮估值达到7.5亿美元。其他竞争者大多建立在开源项目的基础上。

不过，作为创业公司，长期盈利能力还有待验证。一个主要原因，是客户大多是尝鲜、实验性质。

企业需要先将非结构化的私密数据，放入一个小的模型中进行数据转化，即数据向量化，产生一个向量的矩阵，再存储到向量数据库里，来供大模型学习和检索。这个过程涉及大量的工程化，会耗费企业许多开发人员、时间成本，一开始可能会因为AI大模型很火而对向量数据库产生兴趣，但能否真正在业务中落地还是个未知数。因此，长期付费意愿还有较大的不确定性。

另一股积极参与的新势力，就是公有云厂商。

从2017年到2019年，于向量数据库的发展而言，是一段更为重要的时间。腾讯云、百度智能云、京东科技等也恰都是在这个时间段将向量数据库的相关组件应用到具体的业务之上。

实际上，这段时间所对应的背景也正是，非结构化数据需求的激增。

一个具有代表性的事件是，2017年，短视频的爆火，催生了新媒体行业，各种结构数据也随之出现。这一现象就导致了不同结构数据的处理需求。

除此之外，京东、腾讯和百度的内部产品也有更多类似的需求。而向量化引擎也正是从这一时间点开始萌芽。

事实上，不是所有企业都有能力自建大模型所需要的基础设施，通过MaaS（模型即服务）业务来训练应用大模型，是更灵活的选择。此外，很多政企客户往往会选择公有云或行业云来满足其业务需求，对云数据库的关注度和接受度上升，而这些用户在探索大模型时，会倾向于以整体解决方案的形式来交付，这就给了云厂商参与到此赛道机会，同时也要求云厂商提供向量数据库的全栈支持。

如今头部云厂商基本建立了全生命周期AI化的向量数据库。有数据显示，企业原先接入一个大模型需要花1个月左右时间，使用某公有云的向量数据库后，3天时间即可完成，极大降低了企业的接入成本。

更何况，前不久火山引擎、阿里云、百度智能云等都围绕大模型API价格，打起了互相抄底的“价格战”，意味着AI创新门槛的降低，而AI应用市场的用户规模扩大，也会带动向量数据库的使用需求。

综合来看，整个云AI市场的格局还在快速变化之中，风物长宜放眼量，AI Native的向量数据库，前景仍然值得期待。

向量数据库展望AGI时代

从某种程度上而言，无论是向量数据库，还是大模型，归根结底，大家在追捧它时的心态，焦虑大于需求。而这种焦虑则来源于“害怕被落下”。

大模型、多模态等新技术、新应用的出现，正在迅速刷新着人们对AGI时代的期待，仿佛它下一刻就会到来。

而向量数据库的热潮，在一定程度上“外化”了人们的焦虑。但这并不能否定向量数据库的实际价值，甚至更长远的价值。

虽然，目前向量数据库仍处于发展初期，但可以确定的是，向量数据库与大模型一定是捆绑关系。因此，未来其演进方向也一定随着大模型能力的演进而发生变化。

腾讯云数据库副总经理罗云认为，向量数据库帮助大模型解决在专有领域知识不足的问题。通用大模型是基于海量的互联网业务和数据去训练的，但对于一些细分的垂直行业缺少知识。而向量数据库可以帮助企业打通企业私有知识库和大模型的连接，帮助企业更好地利用大模型等AI新技术去实现企业的降本增效，推动企业从“数字化”到“数智化”的跃升，这就是向量数据库在AI时代的重要的定位和价值。

腾讯云数据库副总经理罗云

而在具体的演进方向上，向量数据库一定会考虑多模态数据的表达以及数据的智能化管理。

首先，在大模型应用百花齐放的背景下，向量数据库对于多模态数据的处理意义，变得十分重要。

罗云进一步举例，比如某教育客户，把一些线下的教育课程，甚至老师上课的教育提纲，全部作为向量，存储到腾讯云的向量数据库里。当家长想要去咨询某节课老师讲了什么，就可以把存储在向量数据库里面内容检索出来，再交给大模型按照人们能理解的语言来回答，这就将向量数据库与大模型进行了很好的匹配。

如果没有向量数据库参与，以及没有合理的多模态数据处理方式，这种情况下是无法查询出这些数据的。

但随着多模态数据规模上的提升，另一个问题也随之出现。不同数据库中数据如何将其统一管理并让数据流通起来，这就涉及到的智能化管理也是向量数据库未来的发力点。

向量数据库作为处理多样性和复杂性数据挑战的得力工具，为各行业提供了高效、灵活的数据管理解决方案。其高维索引、相似性查询、向量聚合等特点，使其在推荐系统、搜索引擎、社交媒体分析、生物信息学和图像视频分析等多个领域得到了成功应用。

不可否认，向量数据库的未来既蕴含着广阔的发展空间，也面临着诸多挑战。得益于大模型火热，向量数据库已逐渐成为资本市场的青睐之选。在未来的AGI道路上，向量数据库仍需要砥砺前行。

将技术普惠进行到底，百度智能云云原生数据库GaiaDB来啦！

大模型风起云涌，向量数据库终有“用武之地”？

新趋势下，国产数据库或“春山可望”

押注向量数据库，为时过早？

向量数据库：AI时代的下一个热点

【科技云报到原创】

转载请注明“科技云报到”并附本文链接

http://mp.weixin.qq.com/s?__biz=MzUyNDE4NDE1Mg==&mid=2247502081&idx=1&sn=37b64b5f7322a1db8ed5443dcf4b6754

科技云报到

云计算、网络安全、人工智能、大数据、区块链领域垂直新媒体，专注原创的企业级IT内容行家

最新文章

TA能“跑赢大盘”，靠的竟是这三点！

数字化转型，从不确定性到确定性的关键路径

云数据库“再进化”，OB Cloud如何打造云时代的数据底座？

大模型时代下，向量数据库的野望

云服务的中场战事，从AI应用开始

如何让智能客服像真人一样对话？容联七陌揭秘：多Agent大模型

从“可用”到“好用”，百度智能云如何做大模型的“超级工厂”？

以数据“价值三角”为擎，探索数据治理实践路径

有“韧性”才能更“任性”，云韧性构筑业务最后一道防线

从“N 号房”看Deepfake乱象，如何证明“我”不是我？

天地一体，电信安全织牢智能时代“安全网”

从云计算到AI大模型，云巨头生态革命迈出关键一步

大模型的“掘金卖铲”生意，AI Infra的最佳机会来了？

“大模型+机器人”，具身智能将开启“智械时代”

大模型引领技术浪潮，AI安全治理面临“大考”

算网筑基AI注智，中国联通如何讲出AI时代的“新故事”？

将技术普惠进行到底，百度智能云云原生数据库GaiaDB来啦！

产业为根大模型应用为擎，容联云推动企业营销服场景重塑

人工智能“顶流”齐聚WAIC 2024，他们都做了什么？

XDR+GPT，高校安全运营建设的最优解

推进工业新质生产力，机器人有望成为AI下一个“新引擎”？

“元年”之后，生成式AI将走向何方？

客服中心如何营销服一体化？容犀Desk上大分！

从“实验室”到“生产线”，2024年GenAI迎来行业应用拐点

大模型风起云涌，向量数据库终有“用武之地”？

AGI渐行渐近，该加速还是要踩刹车？

大模型“以厘计价”，谁能扛住价格战？

大模型落地，如何跨过数据这道坎？

何许人也？敢把大模型价格“打骨折”？

国产桌面操作系统能“平替”Windows吗？

59.5%增速拔得头筹，超云服务器逆势飞扬的秘诀

大模型加持，艺赛旗“智能超自动化平台”成色几何？

别拿「豆包」不当干粮，新晋AI顶流好猛！

从亚运到奥运，大型国际赛事共赴“云端”

走入商业化拐点，大模型“开箱即用”或突破行业困局

AIGC掀算力需求革命，边缘计算将不再“边缘”

“老三样”不管用了，网络安全要靠啥？

AI大模型疯长，存储扛住了吗？

大模型加持后，数字人“更像人”了吗？

从“奇点”到“大爆炸”，生成式AI开启“十年周期”

卷完参数卷应用，大模型落地有眉目了？

“淘金”东南亚和“一带一路”，中国数字技术加速出海

从“算力核弹”到生成式AI，新纪元还有多远？

重构销售话术和知识库，容联云找到了大模型的“钉子”

造完“大模型”，“具身智能”将引领AI下一个浪潮？

第五次工业革命，中国AI企业如何打造新质生产力？

“苟”了多年的国产操作系统，开始“逆袭”？

两会热议的数据要素，如何拥抱新技术？

大模型产业落地，安全运营能否迎来“自动驾驶”时刻？

阿里云降价，京东云跟进，谁能打赢云计算价格战？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉