RAG必懂知识：什么是向量数据库的距离？一文详解向量距离

学术 2024-10-19 19:01 内蒙古

向量距离在数学、物理学、工程学和计算机科学等多个领域都至关重要。它们用于测量物理量、分析数据、识别相似性以及确定向量之间的关系。本文将提供向量距离及其在数据科学中应用的概述。

什么是向量距离？

向量距离，也称为距离度量或相似度度量，是一种数学函数，用于量化两个向量之间的相似性或差异性。这些向量可以代表各种数据集，向量距离有助于理解向量在特征空间中的接近程度或远离程度。因此，向量距离在各种机器学习算法中至关重要，使这些算法能够基于向量之间的关系做出决策。

对于距离的度量，我们可以在几何距离测量和统计距离测量之间进行选择，应该选择哪种距离度量取决于数据的类型。特征可能有不同的数据类型（例如，真实值、布尔值、分类值），数据可能是多维的或由地理空间数据组成。

机器学习中向量距离的应用场景有哪些？

千万不要低估向量距离的力量。向量距离在机器学习领域中有着广泛的应用场景。

首先，在聚类任务中，向量距离能够帮助将相似向量分组成簇。诸如k-均值、层次聚类和DBSCAN等算法依赖向量距离来确定哪些向量属于同一簇。

在分类任务中，kNN分类等算法通过计算某向量与其k个最近邻向量的距离来确定其分类，从而将该向量分配到其近邻最多的聚类中。在自然语言处理（NLP）中，向量距离被用于计算文档相似度、执行情感分析和对文本文档进行聚类。

在数据预处理步骤中，向量距离对于特征缩放、归一化和去除异常值至关重要，确保数据能够更好地适应机器学习算法。

在神经网络训练中，向量距离作为损失函数或正则化项，鼓励输出向量和目标向量之间保持一定的关系，从而提高模型性能。异常检测任务中，通过测量向量与中心簇或其他向量的距离，可以检测出异常或离群值，这些向量因远离大多数向量而被视为异常。

降维技术如UMAP和t-SNE利用向量距离在高维数据中创建低维表示，尽可能保持成对距离，帮助数据可视化和理解。

总之，向量距离是许多机器学习任务和应用的基石，选择合适的向量距离对算法的能力及其捕捉向量数据之间关系至关重要。

有哪些向量相似度类型？

1、欧氏距离 Euclidean distance

欧氏距离度量两个实值向量之间的最短距离。由于其直观，使用简单和对许多用例有良好结果，所以它是最常用的距离度量和许多应用程序的默认距离度量。

欧氏距离也可称为l2范数，其计算方法为:

Python代码如下：

 from scipy.spatial import distance
 distance.euclidean(vector_1, vector_2)

欧氏距离有两个主要缺点。首先，距离测量不适用于比2D或3D空间更高维度的数据。第二，如果我们不将特征规范化和/或标准化，距离可能会因为单位的不同而倾斜。

2、曼哈顿距离 Manhattan distance

曼哈顿距离也被称为出租车或城市街区距离，因为两个实值向量之间的距离是根据一个人只能以直角移动计算的。这种距离度量通常用于离散和二元属性，这样可以获得真实的路径。

曼哈顿距离以l1范数为基础，计算公式为:

Python代码如下：

 from scipy.spatial import distance
 distance.cityblock(vector_1, vector_2)

曼哈顿的距离有两个主要的缺点。它不如高维空间中的欧氏距离直观，它也没有显示可能的最短路径。虽然这可能没有问题，但我们应该意识到这并不是最短的距离。

3、切比雪夫距离 Chebyshev distance

切比雪夫距离也称为棋盘距离，因为它是两个实值向量之间任意维度上的最大距离。它通常用于仓库物流中，其中最长的路径决定了从一个点到另一个点所需的时间。

切比雪夫距离由l -无穷范数计算:

Python代码如下：

 from scipy.spatial import distance
 distance.chebyshev(vector_1, vector_2)

切比雪夫距离只有非常特定的用例，因此很少使用。

4、闵可夫斯基距离 Minkowski distance

闵可夫斯基距离是上述距离度量的广义形式。它可以用于相同的用例，同时提供高灵活性。我们可以选择 p 值来找到最合适的距离度量。

闵可夫斯基距离的计算方法为:

Python代码如下：

 from scipy.spatial import distance
 distance.minkowski(vector_1, vector_2, p)

由于闵可夫斯基距离表示不同的距离度量，它就有与它们相同的主要缺点，例如在高维空间的问题和对特征单位的依赖。此外，p值的灵活性也可能是一个缺点，因为它可能降低计算效率，因为找到正确的p值需要进行多次计算。

5、余弦相似度和距离 Cosine similarity

余弦相似度是方向的度量，他的大小由两个向量之间的余弦决定，并且忽略了向量的大小。余弦相似度通常用于与数据大小无关紧要的高维，例如，推荐系统或文本分析。

余弦相似度可以介于-1(相反方向)和1(相同方向)之间，计算方法为:

余弦相似度常用于范围在0到1之间的正空间中。余弦距离就是用1减去余弦相似度，位于0(相似值)和1(不同值)之间。

Python代码如下：

 from scipy.spatial import distance
 distance.cosine(vector_1, vector_2)

余弦距离的主要缺点是它不考虑大小而只考虑向量的方向。因此，没有充分考虑到值的差异。

6、半正矢距离 Haversine distance

半正矢距离测量的是球面上两点之间的最短距离。因此常用于导航，其中经度和纬度和曲率对计算都有影响。

半正矢距离的公式如下：

其中r为球面半径，φ和λ为经度和纬度。

Python代码如下：

 from sklearn.metrics.pairwise import haversine_distances
 haversine_distances([vector_1, vector_2])

半正矢距离的主要缺点是假设是一个球体，而这种情况很少出现。

7、汉明距离

汉明距离衡量两个二进制向量或字符串之间的差异。

对向量按元素进行比较，并对差异的数量进行平均。如果两个向量相同，得到的距离是0之间，如果两个向量完全不同，得到的距离是1。

Python代码如下：

 from scipy.spatial import distance
 distance.hamming(vector_1, vector_2)

汉明距离有两个主要缺点。距离测量只能比较相同长度的向量，它不能给出差异的大小。所以当差异的大小很重要时，不建议使用汉明距离。

统计距离测量可用于假设检验、拟合优度检验、分类任务或异常值检测。

8、杰卡德指数和距离 Jaccard Index

Jaccard指数用于确定两个样本集之间的相似性。它反映了与整个数据集相比存在多少一对一匹配。Jaccard指数通常用于二进制数据比如图像识别的深度学习模型的预测与标记数据进行比较，或者根据单词的重叠来比较文档中的文本模式。

Jaccard距离的计算方法为:

Python代码如下：

 from scipy.spatial import distance
 distance.jaccard(vector_1, vector_2)

Jaccard指数和距离的主要缺点是，它受到数据规模的强烈影响，即每个项目的权重与数据集的规模成反比。

9、Sorensen-Dice指数

Sörensen-Dice指数类似于Jaccard指数，它可以衡量的是样本集的相似性和多样性。该指数更直观，因为它计算重叠的百分比。Sörensen-Dice索引常用于图像分割和文本相似度分析。

计算公式如下：

Python代码如下：

 from scipy.spatial import distance
 distance.dice(vector_1, vector_2)

它的主要缺点也是受数据集大小的影响很大。

使用向量距离的主流软件库

Faiss 向量检索库的应用

Faiss 是一个高效的向量检索库，由 Facebook AI 研究团队开发，广泛用于高维向量的相似性搜索和聚类。以下是一些 Faiss 常用的操作：

这些操作涵盖了 Faiss 的基本使用场景，包括创建索引、添加和搜索向量、以及与 GPU 的兼容等。根据实际应用的需求，你可以选择适合的索引类型和优化方法。

总的来说，向量数据库距离的价值在于其在高效检索和处理大规模数据中的核心作用。

通过量化向量之间的相似性或差异性，向量距离使得机器学习算法能够在特征空间中准确地分类、聚类和预测数据。它不仅提升了自然语言处理、图像识别和异常检测等领域的精度，还在数据预处理和降维过程中发挥关键作用。

向量距离是实现智能化数据分析和决策的基础工具，极大地推动了AI和机器学习技术的发展。

参考资料：

https://zilliz.com.cn/glossary/%E5%90%91%E9%87%8F%E8%B7%9D%E7%A6%BB
https://segmentfault.com/a/1190000042705356

http://mp.weixin.qq.com/s?__biz=MjM5NzEyMzg4MA==&mid=2649511334&idx=8&sn=fc14dfd2d3440fef6c15b461770c0932

数学中国

数学中国 (数学建模)-最专业的数学理论研究、建模实践平台.

最新文章

2024第四届”认证杯“数学中国全国大学生数学竞赛参赛通知

数学中国2024全国大学生数学竞赛题库已发布

2024第四届”认证杯“数学中国全国大学生数学竞赛开始招募啦！里面有各种福利，快来报名！

【科研干货】如果你是读量化研究的博士，那你在读博期间将主要经历……

你需要懂一点儿“Agent建模”

从0到1实现神经网络（Python）

RAG必懂知识：什么是向量数据库的距离？一文详解向量距离

2024第四届”认证杯“数学中国全国大学生数学竞赛参赛通知

数学中国2024全国大学生数学竞赛题库已发布

2024第四届”认证杯“数学中国全国大学生数学竞赛开始招募志愿者啦！里面有各种福利，快来报名！

仅32所高校！教育部公布重磅名单

Yann LeCun最新万字演讲：致力于下一代AI系统，我们基本上不做LLM了

IEEE TRO发表！浙江大学刘一得、曲绍兴等提出折纸传动机构设计方法，突破机械昆虫性能瓶颈!

2024第四届”认证杯“数学中国全国大学生数学竞赛参赛通知

数学中国2024全国大学生数学竞赛题库已发布

2024第四届”认证杯“数学中国全国大学生数学竞赛开始招募啦！里面有各种福利，快来报名！

诺贝尔物理学奖，为何授予机器学习？

我做学问的经验

深度反思：为何我们的研究生提不出问题？

【统计知识】统计学的真实含义

2024第四届”认证杯“数学中国全国大学生数学竞赛参赛通知

数学中国2024全国大学生数学竞赛题库已发布

北京赛区获奖成绩可以查询

正则化方法小结

自动驾驶 | 车道检测实用算法

这次终于彻底理解了傅里叶变换

这几个被淘汰的 Python 库，请不要再用

2024第四届”认证杯“数学中国全国大学生数学竞赛参赛通知

数学中国2024全国大学生数学竞赛题库已发布

贝叶斯线性回归：概率与预测建模的融合

李飞飞团队新突破：低成本高泛化机器人训练法，零样本迁移成功率90%！

拿诺奖的Hinton教出了一众改变世界的AI博士，一个比一个牛逼

刚刚，2024年诺贝尔经济学奖揭晓！

颜宁团队，最新成果！

2024第四届”认证杯“数学中国全国大学生数学竞赛参赛通知

数学中国2024全国大学生数学竞赛题库已发布

2024数学建模国赛海南赛区评审结果（盖章版无水印可下载）

《FPCMM》12月征稿主题：数学建模与智能计算

读博对心理有持续负面影响？终于有论文证实了！确实是真的！

两万字实录：大语言模型、提示学习与未来科技研发的交汇点丨GAIR Live

101种机器学习,一个包就解决(代码更新！)

2024第四届”认证杯“数学中国全国大学生数学竞赛参赛通知

数学中国2024全国大学生数学竞赛题库已发布

2024数学建模国赛海南赛区评审结果（盖章版无水印可下载）

《FPCMM》12月征稿主题：数学建模与智能计算

这个时代，如何与“算法”共存？

超全面讲透一个算法模型，正则化！！

2024第四届”认证杯“数学中国全国大学生数学竞赛参赛通知

数学中国2024全国大学生数学竞赛题库已发布

2024数学建模国赛海南赛区评审结果（盖章版无水印可下载）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉