为AI而生的向量数据库 - milvus(三) | 使用（1）

科技 2024-11-29 20:30 山西

-推荐关注-

-正文-

安装milvus数据库
安装SDK
新建collection
准备数据
插入数据
语义搜索
表达式查询
删除实体（数据）

Milvus是一款由Zilliz公司开发的开源向量数据库，专为处理大规模向量数据设计。它主要用于存储、索引和管理由深度神经网络和其他机器学习模型生成的嵌入向量，适用于图像、视频、音频和文本等非结构化数据的特征表示。

安装milvus数据库

目前，Milvus 有三种部署选项：Milvus Lite、Milvus Standalone 和 Milvus Distributed。

先使用Milvus Standalone方式安装，官方提供了Docker Compose 配置

milvus的安装：详见：为AI而生的向量数据库 - milvus(二) | 单机Standalone安装
docker的安装：详见：Docker在Windows环境（WSL2）的安装

1.下载docker compose脚本：wget -O milvus-standalone-docker-compose-gpu.yml https://github.com/milvus-io/milvus/releases/download/v2.4.6/milvus-standalone-docker-compose-gpu.yml

2.启动docker

3.启动服务：docker compose -f milvus-standalone-docker-compose-gpu.yml up -d

安装SDK

当前版本的 Milvus 支持 Python、Node.js、GO 和 Java SDK。

我们现在安装Python版本SDK

pip install -U pymilvus

新建collection

在 Milvus 中，我们需要一个 Collections 来存储向量及其相关元数据。你可以把它（Collections ）想象成传统 SQL 数据库中的表格。创建 Collections 时，可以定义 Schema 和索引参数来配置向量规格，如维度、索引类型和距离度量类型。此外，还有一些复杂的概念来优化索引以提高向量搜索性能。现在，我们使用默认设置。

主键和向量字段使用默认名称（"id "和 "vector"）。
度量类型为默认值（COSINE）：余弦相似度。

余弦相似度：见人工智能小白到高手：余弦相似度（Cosine Similarity）的简单理解

主键字段接受整数，且不自动递增

from pymilvus import MilvusClient, model, utility
# 连接数据库
client = MilvusClient(uri="http://localhost:19530", token="root:Milvus")

# 新建Collections 来存储向量及其相关元数据
if client.has_collection(collection_name="demo_collection"):
    client.drop_collection(collection_name="demo_collection")
client.create_collection(
    collection_name="demo_collection",
    dimension=768,  # 向量维度 768维
)

准备数据

我们需要通过下载 embedding 模型为文本生成embedding 向量。使用pymilvus[model] 库中的功能可以完成

首先，安装模型库：pip install "pymilvus[model]"

使用默认模型生成Embedding向量 。Milvus 以字典列表的形式插入，每个字典代表一条数据记录，称为**实体(entity)**。

Embedding是什么？详见：一文说清楚人工智能的嵌入（Embedding）是什么

# 加载默认Embedding模型
embedding_fn = model.DefaultEmbeddingFunction()
# 定义一个文本的列表
docs = [
    "Artificial intelligence was founded as an academic discipline in 1956.",
    "Alan Turing was the first person to conduct substantial research in AI.",
    "Born in Maida Vale, London, Turing was raised in southern England.",
]
# 把文本编码为Embedding
vectors = embedding_fn.encode_documents(docs)
print("嵌入后的向量维度:", embedding_fn.dim, vectors[0].shape)  # 维度数量: 768 (768,)

# 生成需要插入的数据格式
data = [
    {"id": i, "vector": vectors[i], "text": docs[i], "subject": "history"}
    for i in range(len(vectors))
]
print("数据 ：", len(data), "条, 所有字段: ", data[0].keys())
print("向量维度:", len(data[0]["vector"]))

# 输出：
# 嵌入后的向量维度: 768 (768,)
# 数据 ：3 条, 所有字段:  dict_keys(['id', 'vector', 'text', 'subject'])
# 向量维度: 768

插入数据

res = client.insert(
    collection_name="demo_collection",
    data=data
)
print("插入数据结果：", res)
# 插入数据结果： {'insert_count': 3, 'ids': [0, 1, 2]}

语义搜索

把查询文本转为embedding 向量，并在 Milvus 上执行向量相似度搜索来进行语义搜索。

# 将查询文本转为embedding 
query_vectors = embedding_fn.encode_queries(["Who is Alan Turing?"])
print("查询向量维度:", len(query_vectors[0]))

res = client.search(
    collection_name="demo_collection",  # 目标 collection
    data=query_vectors,  # 查询文本的向量
    limit=2,  # 返回的实体数
    output_fields=["id", "text", "subject"],  # 指定返回的字段
)
print("search结果：", res)

# 查询向量维度: 768
# search结果：data: ["[{'id': 2, 'distance': 0.5859944820404053, 'entity': {'id': 2, 'text': 'Born in Maida Vale, London, Turing was raised in southern England.', 'subject': 'history'}}, {'id': 1, 'distance': 0.5118255019187927, 'entity': {'id': 1, 'text': 'Alan Turing was the first person to conduct substantial research in AI.', 'subject': 'history'}}]"]

data:

[
  [
    {
      'id': 2,
      'distance': 0.5859944820404053,
      'entity': {
        'id': 2,
        'text': 'Born in Maida Vale, London, Turing was raised in southern England.',
        'subject': 'history'
      }
    },
    {
      'id': 1,
      'distance': 0.5118255019187927,
      'entity': {
        'id': 1,
        'text': 'Alan Turing was the first person to conduct substantial research in AI.',
        'subject': 'history'
      }
    }
  ]
]

表达式查询

用于检索与某个条件（如过滤表达式或与某些 id 匹配）相匹配的所有实体。（类似SQL的where条件）

如：通过"subject == 'history'"筛选：

res = client.query(
    collection_name="demo_collection",
    filter="subject == 'history'",
    output_fields=["id", "text", "subject"],
)
print("query结果：", res)
# query结果：data: ["{'id': 0, 'text': 'Artificial intelligence was founded as an academic discipline in 1956.', 'subject': 'history'}", "{'id': 1, 'text': 'Alan Turing was the first person to conduct substantial research in AI.', 'subject': 'history'}", "{'id': 2, 'text': 'Born in Maida Vale, London, Turing was raised in southern England.', 'subject': 'history'}"]

[
  "{'id': 0, 'text': 'Artificial intelligence was founded as an academic discipline in 1956.', 'subject': 'history'}",
  "{'id': 1, 'text': 'Alan Turing was the first person to conduct substantial research in AI.', 'subject': 'history'}",
  "{'id': 2, 'text': 'Born in Maida Vale, London, Turing was raised in southern England.', 'subject': 'history'}"
]

通过主键直接检索实体：

res = client.query(
    collection_name="demo_collection",
    ids=[0, 2],
    output_fields=["vector", "text", "subject"],
)

删除实体（数据）

如果想清除数据，可以删除指定主键的实体，或删除与特定过滤表达式匹配的所有实体。

res = client.delete(collection_name="demo_collection", ids=[0, 2])

res = client.delete(
    collection_name="demo_collection",
    filter="subject == 'history'",
)
print("删除数据结果：", res)

往日文章：

--END--

AI取经路

踏上取经路，比抵达灵山更重要！ AI技术、 AI知识、 AI应用、人工智能、大语言模型

最新文章

谷歌对智能体的理解：白皮书《Agents》

从0到1开发AI Agent（智能体）（八）| 智能体3：通过Llamalndex实现检索增强生成（RAG）

入门GPT（二）| 词袋模型（Bag of Words）辅助提升餐厅满意度

RAG怎么面对用户的4级查询难度？微软给出方案！

入门GPT（一）| N-Gram带你了解自然语言处理（2）代码实现

入门GPT（一）| N-Gram 带你了解自然语言处理（1）

国产之光，DeepSeek V3大模型既便宜又好用，惊艳世界AI圈

LangChain实战 | OutputParser：让大模型输出从 “鸡肋” 变 “瑰宝” 的关键！

LangChain实战 | LangGraph 让你的 AI 项目从 “好” 变 “卓越”

Claude官方Anthropic建议：构建高效智能体 (Building effective agents)

从0到1开发AI Agent（七）| Plan-and-Execute 如何解决AI复杂任务

为什么提示词总出错？使用思维链（CoT）提升效果高达 78%！

10分钟了解大模型应用全貌 : 大模型应用架构（LLM application architecture）

CNNIC中国互联网络信息中心重磅发布《生成式人工智能应用发展报告（2024）》

怎么说大模型才会听：提示工程神器之少样本提示(Few-Shot Prompting)

怎么说大模型才会听：零样本提示(Zero-Shot Prompting)

从0到1开发AI Agent（智能体）（六）| 智能体1 ：通过LangChain中的ReAct框架实现自动定价

LangChain实战 | Tool Calling ：让AI真正动起来的关键技术

人工智能小白到高手：大模型通过 Function calling 沟通外部世界

斯坦福大学发布！《全球人工智能实力排行榜》 - 中美 AI 赛跑

一文说清楚什么是大模型LLMs的Token,全面了解钱的流向

一文说清楚什么是多模态大模型，与大模型有什么区别

人工智能小白到高手：怎么都绕不开的独热编码（one-hot encoding）

从0到1开发AI Agent（智能体）（五）：LlamaIndex 极速上手攻略

人工智能小白到高手：什么是线性回归

数字智能会取代生物智能吗？AI 教父 Geoffrey Hinton 你怎么看

从0到1开发AI Agent（智能体）（四）| LangChain 的快速入门

加速让企业落地"生成式AI"，53%的公司已经领先一步！

从0到1开发AI Agent（智能体）（三）| OpenAI API的快速入门

OpenAI 12天发布会狂欢开始了！第一天的重磅发布

给小朋友解释什么是人工智能、机器学习、深度学习、神经网络

人工智能深度学习的进化史：一场横跨80年的脑洞之旅

从0到1开发AI Agent（智能体）（二）| 智能体推理引擎ReAct框架的快速入门

10分钟解决国内不能访问OpenAI API的一个方案

AI时代，Java程序员不能不知道的两个框架

4 个关键的 AI 趋势 | 吴恩达在 Snowflake Build 2024 上的演讲大纲

智能体（AI Agent）的5个能力级别将带我们走向何方

从0到1开发AI Agent（智能体）（一）| 基于大模型的AI Agent技术框架

一文说清楚什么是AI大模型

为AI而生的向量数据库 - milvus(三) | 使用（1）

一个程序员的感恩节独白：写给那些代码里的温暖

人工智能小白到高手：Sentence-Transformers

一文说清楚人工智能的嵌入（Embedding）是什么

未来的手机是什么样子，AI赋能的全新体验，Mate 70系列的智慧亮点

为AI而生的向量数据库 - milvus(二) | 单机Standalone安装

人工智能小白到高手：余弦相似度（Cosine Similarity）的简单理解

Docker在Windows环境（WSL2）的安装

为AI而生的向量数据库 - milvus(一) | milvus是什么

从制造到医疗，行业大模型正重塑世界！- 腾讯研究院发布《行业大模型调研报告》

一文说清楚什么是AI Agent(智能体)

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉