说说向量数据库

文摘科技 2024-05-14 21:04 日本

随着生成AI技术的迅速发展和普及，基于检索生成（RAG：Retrieval Augmented Generation）的系统正成为新兴研究和应用的热点。RAG系统融合了信息检索和文本生成的功能，能够在回答查询时提供更加丰富和精确的信息。而在RAG系统的核心运行机制中，向量数据库起到了至关重要的作用。

尽管向量数据库也被称为“数据库”，但其工作原理和我们常用的关系型数据库有着本质的不同。向量数据库是生成AI时代知识检索的基石,了解和掌握它对于构建智能系统至关重要。

今天，我们将详细探讨一下向量数据库的概念、工作原理，它与传统关系型数据库的不同之处，以及它在生成AI系统中的应用。

向量数据库的概念

向量数据库是一种专门用于存储和检索向量数据的数据库系统。不同于传统数据库存储结构化数据,向量数据库存储的是向量形式的数据,这些向量通常是将文本等非结构化数据通过embedding模型编码而成。

在人工智能、尤其是机器学习和深度学习领域，数据往往会被表示为高维向量。这些向量代表了数据的特征，可以是图像、文本或者任何类型的数据。向量数据库通过高效的索引和检索机制来管理这些高维向量数据，从而加快检索速度并提高检索的准确性。特别是在执行相似性搜索时，如查找与给定图像最相似的图像或找到与特定文本段落语义相近的文本。

与关系型数据库的区别

向量数据库与关系型数据库在数据模型、设计目标、使用场景等多个方面存在明显区别:

数据模型

●关系型数据库存储结构化数据，使用二维表格模型，每行为一个记录，每列为一个字段。

●向量数据库存储的是向量形式的数据，通常是将非结构化数据如文本、图像等映射为高维向量。

数据组织方式

●关系型数据库按行存储记录，通过B+树等传统索引访问数据。

●向量数据库采用特殊的向量索引数据结构如KD树、球树、哈希等来组织和索引向量数据。

查询方式

●关系型数据库通过结构化查询语言SQL进行精确匹配查询。

●向量数据库通过相似度计算如余弦相似度等实现相似向量查找。

设计目标

４

●关系型数据库设计目标是数据的准确性、完整性。

●向量数据库设计目标是极高的向量查询性能和可扩展性。

应用场景

●关系型数据库普遍应用于结构化数据的存储和事务处理场景。

●向量数据库主要应用于生成AI知识检索、语义搜索、个性化推荐等需要向量相似性计算的领域。

数据一致性

●关系型数据库通过事务提供ACID特性,确保数据的准确性和一致性。

●向量数据库侧重向量查询性能，通常不提供完全的事务和数据一致性保证。

查询性能

●关系型数据库在结构化数据精确匹配查询上具有优势。

●向量数据库则在非结构化相似数据查找等场景下性能更加出众。

总的来说，关系型数据库更适合处理结构化业务数据和事务场景，而向量数据库则是大规模向量计算和相似性查询的绝佳选择。二者在设计理念和适用场景上存在明显差异，但在现代数据处理架构中可以形成互补，共同支撑新兴的智能应用。

工作原理

向量数据库的核心在于其向量索引技术。这些技术利用向量空间的几何性质来优化存储结构和检索过程，当进行数据检索时，向量数据库通过计算查询向量与数据库中存储向量之间的相似度来找到最相似的结果，向量数据库的工作原理如下：

1.数据导入与向量化

首先需要将非结构化数据如文本、图像等通过embedding模型编码转换为向量形式。常用的embedding模型有Word2Vec、BERT、GPT等。每个数据项都会被映射到一个固定维度的向量空间中。

2.向量存储与索引

向量经过向量化后，需要被高效存储和索引,以支持快速向量相似度查询。向量数据库通常采用以下数据结构：

不同的向量库采用不同的索引算法组合，以平衡查询精度、查询性能、内存占用等指标。

★平面存储：将向量按顺序存储在磁盘或内存中,查询时需要线性扫描对比,效率低下。

★树形索引：使用KD树、球树等树形结构组织向量,实现基于空间划分的向量索引,查询时可剪枝提高效率。

★哈希索引：通过局部敏感哈希等将高维向量映射到低维哈希值,对哈希值构建倒排索引用于快速筛选候选向量集。

3.向量相似度计算

当查询一个向量时，向量数据库需要遍历索引中的向量，计算与查询向量的相似度。常用的相似度计算方法有余弦相似度、欧几里得距离、杰卡德相似度等。高效的相似度计算对查询性能至关重要。

4.向量查询

查询通常分为两个阶段，基于索引的候选集筛选和候选集精确计算。在第一阶段,根据索引快速筛选出较小的候选集，第二阶段对候选集中每个向量进行精确相似度计算，并按相似度排序输出结果。

5.分布式架构（可选）

对于海量向量数据,单机存储和查询往往无法满足要求。分布式向量数据库通过分片、复制、路由等策略将数据分布到多台节点上,利用集群并行计算能力提高查询吞吐量。

向量数据库的核心是高效的向量存储、索引和向量间相似度计算,通过精心设计的算法结构和优化策略，实现了快速、可扩展的向量查询能力,为生成AI时代的知识检索等应用提供了关键支撑。

向量化数据模型

因为向量数据库存储的是向量数据，所以需要把非结构化的数据转变为向量，下面列举了一些常用的向量化数据模型。

1.GPT

GPT是OpenAI开发的生成式预训练模型，采用Transformer架构并在大规模文本语料上训练。GPT除了输出文本表示向量，还能直接生成自然语言。

2.Word2Vec

Word2Vec是一种流行的词嵌入模型，由Google推出。它包含CBOW和Skip-gram两种模型架构，通过神经网络对上下文进行建模，将词映射为固定维度的词向量。这些词向量能较好地捕捉词与词之间的语义和句法关系。Word2Vec广泛用于自然语言处理任务中。

3.GloVe

GloVe（Global Vectors）是斯坦福大学提出的基于词共现统计信息训练词向量的模型。它利用词与词之间的共现矩阵，通过矩阵分解得到词向量表示。GloVe相比Word2Vec，能更好地捕捉词的全局统计信息。

4.BERT

BERT（Bidirectional Encoder Representations from Transformers）是一种基于Transformer的预训练语言模型，由Google开发。BERT通过掩码语言模型和下一句预测两个任务进行预训练，输出上下文化的词/句向量表示，在各种自然语言任务中表现卓越。

5.CNN

CNN（Convolutional Neural Network）是一种常用的卷积神经网络模型，在图像、视频等领域有广泛应用。CNN通过卷积、池化等操作学习图像的局部和全局特征，将图像映射为固定长度的特征向量。

6.ViT

ViT（Vision Transformer）是一种将Transformer应用到图像领域的模型，由Google提出。ViT将图像分割为多个patches，并将这些patches线性投影到向量空间，然后输入Transformer进行建模，最终生成图像级特征向量。

7.Speech2Vec

Speech2Vec是语音嵌入模型的一种，由Speech团队提出。它采用迁移学习的思路，利用预训练的BERT模型将音频数据投影到与文本相同的向量空间,获得语音片段的语义向量表示。

以上介绍的一些典型的向量化模型都是针对不同类型的非结构化数据（文本、图像、音频等），输出相应的向量表示。这些向量不仅能很好地捕获原始数据的语义信息，而且便于计算向量间的相似度，为向量数据库等智能系统提供了有力支撑。业界和学界还在不断研究和开发新的向量化模型，以更好地表示和建模复杂的非结构化数据。

常见向量数据库

我们来详细介绍一下目前常见的几种主流向量数据库：

1.Faiss

Faiss是Facebook AI研究院推出的开源向量数据库，支持高效的相似向量查询。它支持内存和持久化两种存储方式，提供了多种索引算法如倒排文件、平面量化、矩阵乘法运算等。Faiss具有优秀的查询性能,广泛应用于Facebook的推荐系统、广告系统等场景。

2.Milvus

Milvus是一个开源的分布式向量数据库，由Zilliz公司开发，支持海量向量数据的持久化存储和毫秒级查询响应。它采用了多种优化的向量索引数据结构，如Rnag Tree、IVF等。Milvus支持水平扩展、高可用和云原生等特性，非常适合大规模AI场景。

3.Weaviate

Weaviate是一个基于云本地架构设计的开源向量数据库，结合了向量数据存储和知识图谱两种功能。它采用B+树和HNSW等索引算法，支持各种向量查询类型。Weaviate还提供灵活的数据模型和RESTful API，可与多语言应用程序集成。

4.Qdrant

Qdrant是一个用Rust编写的高性能开源向量数据库,支持快速向量相似度查找。它内置多种向量索引如HNSW、BF等，并使用SIMD和向量化等优化手段提升查询效率。Qdrant提供分布式集群模式支持水平扩展。

5.Pinecone

Pinecone是一家新兴的向量数据库服务商，提供基于云的托管向量数据库服务。它使用优化的向量索引结构，通过分片、复制和分布式查询等策略支持海量向量数据存储和快速查询。

6.ElasticSearch

虽然ElasticSearch核心功能是全文检索，但从7.x版本开始也支持向量相似度搜索。通过集成Lucene近似最近邻向量索引库，ElasticSearch可存储和查询向量数据，尤其适合与传统全文检索相结合的混合场景。

以上列举了目前几种常见并具有代表性的向量数据库。它们在底层算法、集群分布式、查询接口等方面各有侧重，用户可根据具体需求如性能、规模、生态等进行选择。同时也有一些新兴的商业向量数据库产品不断涌现,相信未来还会有更多创新和发展。

应用场景

向量数据库凭借其高效的向量相似性计算和检索能力，在多个领域得到了广泛应用。

1.生成式AI知识检索

在RAG等生成式AI系统中，向量数据库用于快速从知识库中检索与模型输出相关的内容片段,为模型生成提供额外知识支持。这是向量数据库最直接和典型的应用。

2.语义搜索

传统的关键词搜索只能精确匹配查询词，而向量数据库支持对查询和文档进行语义级的相似度匹配。这在电商产品搜索、企业知识库等场景中可以提供更智能和高效的搜索体验。

3.个性化推荐系统

通过将用户行为、物品内容等编码为向量，向量数据库可以高效计算用户-物品向量间的相似度，从而实现精准的个性化推荐。这种方式已广泛应用于电商、视频、新闻等推荐场景。

4.文本聚类

利用向量数据库快速查找相似向量，可用于对海量文本进行自动聚类，这在文本分类、主题发现等应用中非常有用。

5.反垃圾内容

通过构建向量数据库存储已知的垃圾、违规内容向量,可以快速检测新内容与其的相似程度，从而有效地识别和过滤垃圾内容。

6.多模态检索

将文本、图像、音频等多模态数据映射到同一语义向量空间，就可以基于向量检索实现跨模态检索，如图片搜索相似文字等创新应用。

7.生物信息学

在分子相似性计算、蛋白质结构比对等生物信息学任务中，向量数据库的相似性搜索能力可以大大提升效率。

除了上述主流应用场景，向量数据库在如语音识别、知识图谱构建、欺诈检测等领域也渐显身手。随着生成AI的不断发展，相信向量数据库的应用场景还将不断扩展和演进。总的来说，凡是涉及大规模非结构化数据与向量空间操作的领域，向量数据库都可以大显身手，发挥其存储和检索效能。

总之，向量数据库在支持生成AI及其相关技术方面扮演了不可或缺的角色。随着技术的发展和应用的深入，向量数据库的研究和优化将会更加重要，有望推动人工智能技术向更高的层次发展。

ITgo技术者之家，持续关注在日IT人关心的各种资讯，打造在日技术者的专属社区。欢迎留言交流互动。

ITgo

一手案件一手人才

往期精彩回顾:

住民税大揭秘：怎么算？从哪省？终于整明白了！

软件工程师面试不合格理由第二位“技术力不足”，第一位是什么？

对日软件工程师如何写“本番障害報告書”

全银系统故障原因揭秘：NTT Data和全银联的深度分析！

日本小中高学生的成绩提高神器Rakumon又出新篇章

用中国驾照换日本驾照5步搞定！省时又省力！

高手程序员的几大特征

在日本护照过期了怎么办？2023中国领事APP换发护照攻略来了～

你离「高度人材」可能只差这篇文章的距离——帮你找到隐藏的加分项

保险证还能这么玩！在日IT人的专属福利～

ITgo技术者之家

ITgo技术者之家的理念以对日IT技术者为中心、在这里有您关心的高单价案件、热点技术讲座、生活互助、情感交流等各种话题，致力于打造专属于对日IT技术者的优质平台。

最新文章

日本2024年度十大流行语公布，看了榜单我惊呆了～

日本打工人的福音！明年各位到手收入很可能要涨了...

又一年日本“故乡税”完全手册来了，年末一起薅一波羊毛！

二维码会用尽？撕坏了也能读？揭秘二维码背后的冷热知识~

程序员的MBTI全解析！哪4类人格在编程界简直开挂？

124亿日元天价诉讼！日本通运和埃森哲如何从合作走到公堂的？

日本养老2000万已经不够了，要翻倍了...

AI可不只是ChatGPT，何不来试试Claude和Gemini？

从“i人”到“嘴替”：中日网络热词对照说说看～

日本小学生“未来想从事的职业”,IT榜上有名，排第一的竟然是......

为什么日本加油站油价各不同？油质不一样？哪更便宜？

孩子从幼儿园到大学要花多少钱？日本家庭的教育费用全解析！

她是OpenAI的CTO，34岁造出ChatGPT，明明可以靠脸吃饭…

【干货】AI代理的现状与未来（文末有彩蛋）

【速报】windows全球范围内大规模蓝屏，打工人喜提蓝屏假

日本角川集团遭遇无赖黑客，没想到这么惨！

清凉！日本这10个绝美避暑胜地，暑假去打卡！

日本IT工程师薪资被中国超越，全球排名26位，人才短缺何解？

盘点6月事关钱包的6个重要消息，你不会还不知道吧？

惨不忍睹的格力高SAP移行障害，谁的锅？

实例演示：用GPT-4o处理图像・音频・视频

带薪休假这事儿，日本能排第几？

说说向量数据库

4万日元定额减税的事儿，还有人不知道？

日本60%IT工程师感到不安：干不到退休年龄，出路在哪里？

日本应届生就职人气企业TOP10：这家公司连续十年上榜！

【3月IT资讯】这个月IT圈发生了什么？

说一说传统日企的职场礼仪

听说今年日本养老金涨了？快来看看涨多少！

重磅！OpenAI视频生成模型Sora再次震撼世界！

【2月IT资讯】这个月IT圈发生了什么？

2023年的确定申告你做了吗？

“斯人若彩虹，遇上方知有。”这句中式情话，用日语怎么说？

在日本年収千万实际到手有多少？已婚和未婚能差多少？

【1月IT资讯】这个月IT圈发生了什么？

AI时代软件工程师必备技能：Prompt Engineering

最新日本大学偏差值排行榜（2023-2024）

新年启程：深入了解日本正月的文化习俗

让我们Ctrl+S (2023)； Ctrl+N (2024)！

2023年度日本热词揭晓，看了榜单我竟然只认识两个？！

全银系统故障原因揭秘：NTT Data和全银联的深度分析！

日本“故乡税”完全手册来了，年末一起薅一波羊毛！

【11月IT资讯】这个月IT圈发生了什么？

不懂日语的都看懂了，懂日语的都沉默了！

用中国驾照换日本驾照5步搞定！省时又省力！

住民税大揭秘(续)：在日本社员的9种节税方法，你知道有几种？

【1024程序员节】只有程序员才能看懂的笑话

【10月IT资讯】这个月IT圈发生了什么？

【免税事业主必看】Invoice制度的2割特例!！

Invoice制度开始后，公司、个人事业主、社员都要注意什么？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉