智联招聘×Milvus：向量召回技术提升招聘匹配效率

文摘 2024-10-22 18:30 上海

01.

业务背景

在智联招聘平台，求职者和招聘者之间的高效匹配至关重要。招聘者可以发布职位寻找合适的人才，求职者则通过上传简历寻找合适的工作。在这种复杂的场景中，我们的核心目标是为双方提供精准的匹配结果。在搜索推荐场景下，候选人或职位列表会经历召回、粗排、精排和重排等多个阶段，从亿级别的候选集中筛选出最匹配的简历或职位进行展示。在召回阶段我们除了使用传统的规则召回外，还引入了向量召回方式。本次我们主要介绍一种向量召回方式：通过职位召回简历（JD2CV）。为了便于讨论，文中将职位简写为JD，简历简写为CV。

02.

向量召回实现方式

1. 模型训练样本选择：

正样本来自系统日志中有正向交互的JD CV对。负样本由三部分组成：一部分是batch内负采样，第二部分来自全库的随机负采样，全库采样能够更好地模拟实际召回场景。第三部分，我们根据业务规则，选取了一些hard负样本，以提高模型的训练效果。

2. 模型结构：

我们采用了双塔模型结构，分别处理JD和CV的文本信息，将其映射为低维向量。通过计算向量间的相似度，并应用对比学习的损失函数进行优化，使得相关的JD和CV向量距离更近，而非相关的则距离更远。这种方式能有效提高匹配的精度。

3. 模型离线测评：

第一种评估方式是使用模型预测给定的正负样本对，进而计算AUC和JD维度的GAUC。然而，这种评估方式局限于有限样本集，难以全面反映召回模型的真实表现。为了获得更接近线上环境的评估结果，我们采用了一种新的评估方式，分为两个步骤：首先，进行实际的召回操作；其次，对召回结果进行详细评估。

为了支持这一流程，我们调研了多种向量数据库，最终选择了Milvus。主要原因有三点：

易用性：Milvus提供了简洁的API接口，文档丰富，开发者可以快速上手并集成。同时，它支持标量过滤与向量相似性搜索的结合，实现更灵活的混合搜索。
高性能：得益于优化的算法和索引结构，Milvus能够高效地处理大规模数据的向量检索任务，满足我们的性能需求。
社区支持：Milvus拥有活跃的社区和丰富的生态系统，提供了多语言支持和工具链资源，帮助开发者快速解决问题。

在评估召回结果时，我们采用了两种主要方法：

体感评估：对不同模型召回结果中各自独有的部分，使用大模型进行体感标注，统计标注结果看哪个模型体感表现更好。
量化指标：通过统计召回率和精准率等关键指标，评估模型在实际召回任务中的表现。

03.

Milvus使用及具体评估过程

1. Milvus的部署：我们使用Milvus官方提供的docker-compose方式进行部署，使用的是2.4.5版本。评估过程中，采样了百万级别的CV数据，单节点部署完全可以满足这一规模需求。同时还部署了管控平台Attu，便于加载和删除数据集合，修改索引类型，以及进行向量搜索等操作。

为便于数据的导入和召回测试，我们还开发了相应的数据导入和召回接口，使评估流程更加自动化和便捷。

2. 数据准备：在Milvus和相关接口部署完成后，我们根据线上JD的流量分布情况，按照城市粒度采样了一些JD数据，并使用模型生成相应的JD向量。接着，我们对采样城市的全量CV进行向量生成，并通过写入接口将数据存储在Milvus中。为了确保评估的准确性，我们选择了FLAT类型索引，保证能够100%召回相关数据。

3. 召回过程：通过JD编号，我们从JD集合中查询出相应的JD向量，然后根据该向量从CV集合中召回最相似的topK CV。相似度计算采用内积作为度量标准，最终得到一组JD与CV的匹配对。

4. 召回结果评估：我们采用了两种方式对召回结果进行评估。首先，对不同模型各自召回集中独有的部分进行大模型的体感标注。其次，根据正向行为记录的JD-CV对构建正例集，并通过该正例集评估召回率和精准率等指标，最终对模型进行综合评估。

使用Milvus过程中遇到的一些问题：

1. 索引类型选择问题：在分析召回结果时，我们发现一些模型预测分数较高的记录并未被成功召回，而一些分数较低的记录却被召回了。经过排查，问题出在索引类型上。我们最初使用的是IVF_FLAT索引，该类型能够提高查询速度，但无法保证100%的召回率。通过查询官网文档，我们将索引类型更改为FLAT，成功解决了这一问题。

2. 条件查询问题：我们在使用Python SDK进行条件查询时，发现传入的filter参数无法生效。经过与社区的沟通和排查，最终将filter参数改为expr参数后，问题得以解决。

04.

总结

Milvus作为一款功能强大且易于部署的向量数据库，极大地帮助我们优化了召回评估流程，显著节省了时间成本，并为模型上线前提供了更加充分的评估依据。在未来，我们计划继续探索更多的应用场景，进一步发掘Milvus的潜力，并通过其丰富的功能进一步提升业务的召回效率和准确性。

本文作者：

张晓算法工程师

李伟鹏资深算法工程师

Zilliz

Simply The Fastest Vector Database for AI. Period.

最新文章

手把手系列丨如何使用Milvus Backup备份向量数据

聊一聊：ChatGPT搜索引擎会取代谷歌和百度吗？

一文读懂什么是RAG，如何搭建多模态RAG降低大模型幻觉

AI校园新星直通车再启动：Zilliz助您踏上开源舞台

Milvus 表情包上线啦！加入开源社区，用表情传递热情！

算法打败文盲，我用向量数据库与RAG，做了个“鲁迅没说过”

报名进行中丨11月2日深圳Unstructured Data Meetup

手把手系列丨在Kubernetes部署Milvus开源向量数据库

GenAI 生态系统现状：不止大语言模型和向量数据库

Forrester Wave™ 向量数据库报告：Zilliz 进入领导者象限

年度重磅：「非结构化数据峰会」报名正式启动

如何处理海量数据？基于Milvus向量数据库的高度可扩展性

(内含福利!!)11月2日深圳Unstructured Data Meetup等你来！

智联招聘×Milvus：向量召回技术提升招聘匹配效率

还能报名：向心力｜中美 AI 应用与落地分享沙龙

里程碑丨Milvus在GitHub上的Stars数量突破30,000！

开源向量数据库性能对比: Milvus, Chroma, Qdrant

聊一聊：如何精确搜索到表达金桂飘香的古诗词

如何使用OpenAI文本Embedding模型构建AI系统

叮，这是一份来自Zilliz的近期活动高光回放

深度解读GraphRAG：如何通过知识图谱提升 RAG 系统

客户案例丨Milvus与CLIP模型在转转风控的应用

Milvus×Dify半小时轻松构建RAG系统

直播预告丨大模型与向量数据库会碰撞出怎样的火花

从Naive RAG到Agentic RAG：基于Milvus构建Agentic RAG

聊一聊：距离诺贝尔文学奖颁给AI还有多远？

孙悟空 + 红楼梦 - 西游记 = ？一文搞懂什么是向量嵌入

上海站nMeetup开始报名 | 10月26日下午，Zilliz与你相约Database+AI Infra

使用Milvus和Llama-agents构建更强大的Agent系统

不容错过：向心力｜中美 AI 应用与落地分享沙龙

知识图谱融入向量数据库，带来RAG效果飞升

Deep Dive丨多副本功能：提升QPS和系统可靠性

手把手系列丨如何利用 Milvus 实现多模态搜索

Forrester Wave™ 向量数据库报告：Zilliz 获评领导者象限最高分

我们是向量数据库的领军企业，我们只招TOP人才

快速实现AI搜索！Fivetran 支持 Milvus 作为数据迁移目标

如何全面洞察集群状态？Zilliz Cloud 发布监控告警系统新特性

如何更高效传输非结构化数据？Zilliz 推出全新数据迁移服务

直播预告丨Milvus在OPPO的语音与图像检索实践

Deep Dive | Zilliz Cloud正式推出 Serverless 版

科技企业如何做好全球化？Zilliz、Fotor、Answer.ai的经验与建议

活动预告｜Data Fun Summit 2024，Gen AI时代的向量数据库要怎么做

朋友圈装腔指南：如何用向量数据库把大白话变成古诗词

手把手系列｜一篇文章教会你使用有RAG功能的CAMEL框架

客户案例｜Zilliz Cloud 助力 MindStudio 搭建无代码平台，革新 AI 应用开发方式

使用 Milvus、vLLM 和 Llama 3.1 搭建 RAG 应用

官宣：Zilliz 在亚马逊云科技中国区正式开服！

图像与文本并存，多模态检索如何带来新的搜索革命

聊一聊：你最想用大模型实现的功能是什么

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉