-推荐关注-
1. 非结构化数据(向量)的搜索和分析
2. 多模态数据的支持
3. 高性能高扩展
单机的基准测试
集群的基准测试
Milvus是一款由Zilliz公司开发的开源向量数据库,专为处理大规模向量数据设计。它主要用于存储、索引和管理由深度神经网络和其他机器学习模型生成的嵌入向量,适用于图像、视频、音频和文本等非结构化数据的特征表示。
1. 非结构化数据(向量)的搜索和分析
非结构化数据,如文本、图像和音频,格式各异,承载着丰富的潜在语义,这使得分析变得具有挑战性。为了管理这种复杂性,使用嵌入Embedding 将非结构化数据转换为捕获其基本特征的数值向量。然后,将这些向量存储在向量数据库中,以实现快速和可扩展的搜索和分析。
Milvus的核心功能包括高效的向量相似性搜索算法,如HNSW、IVF、PQ等,支持亿级数据量的快速检索,并且具备多种索引类型和相似度度量方法,以适应不同的应用场景需求。此外,Milvus还支持标量数据过滤,增强了搜索的灵活性。
与现有的主要用作处理结构化数据的关系型数据库不同,Milvus 在底层设计上就是为了处理由各种非结构化数据转换而来的 Embedding 向量而生
Embedding向量,神经网络模型的输出数据格式,可以有效地编码信息,在知识库、语义搜索、检索增强生成(RAG)、AI Agent等人工智能应用中发挥关键作用。
RAG 见:本地知识库,通过RAG来解决信息的精准生成
AI Agent 见:一文说清楚什么是AI Agent(智能体)
2. 多模态数据的支持
Milvus 提供强大的数据建模功能,让您能够将非结构化或多模态数据组织成结构化集合。它支持多种数据类型,用于不同的属性建模,包括常见的数值和字符类型、各种向量类型、数组、集合和 JSON,让您免于维护多个数据库系统的麻烦。
如图:
内容 | 数据类型 |
---|---|
文章ID | int |
标题 | 字符串 |
标题嵌入 | 向量 |
作者信息 | json |
标签 | 字符串数组 |
图片嵌入 | 向量 |
概要 | 字符串 |
概要嵌入 | 向量 |
3. 高性能高扩展
Milvus是高性能、可高度扩展的,能够在从笔记本电脑到大规模分布式系统等各种环境中高效运行。
Milvus 提供三种部署模式,涵盖各种数据规模--从 Jupyter Notebooks 中的本地原型到管理数百亿向量的大规模 Kubernetes 集群:
Milvus Lite Milvus Standalone Milvus Distributed
Milvus 的云原生和高度解耦的系统架构确保了系统可以随着数据的增长而不断扩展
单机的基准测试
Milvus | QPS | RT(TP99) / ms | RT(TP50) / ms | fail/s |
---|---|---|---|---|
2.1.0 | 4287 | 104 | 76 | 0 |
2.2.0 | 7522 | 127 | 79 | 0 |
集群的基准测试
Milvus | QPS | RT(TP99) / ms | RT(TP50) / ms | 故障/秒 |
---|---|---|---|---|
2.1.0 | 6904 | 59 | 28 | 0 |
2.2.0 | 10248 | 63 | 24 | 0 |
往日文章:
- 免费开源AI最先进的2D和3D人脸识别项目insightface-活体检测(六)
--END--