合碳智能 × Milvus：探索化学合成新境界——逆合成路线设计

文摘 2024-09-03 18:30 中国香港

合碳智能（C12.ai）成立于2022年，致力于运用AI和具身智能技术，为药物研发实验室提供新一代智能化解决方案，推动实验室从自动化迈向智能化，突破传统实验模式与人员的依赖，解决效率和成本的瓶颈，实现药物研发行业的产业革命。

在药物研发和有机合成化学领域，逆合成分析是一种至关重要的工具。通过逆合成分析，化学家可以从目标分子出发，逐步拆解其结构，推导出合理的合成路线。然而，合成路线的设计往往需要借鉴历史上已知的相似反应，这些反应提供了宝贵的经验和指导，使得合成路线设计更具可行性和效率。

在我们开发的逆合成路线设计产品中，相似反应的检索是核心功能之一。为了在庞大的反应数据库中快速、准确地找到与每一步设计相关的相似反应，我们采用了 Milvus 向量数据库。Milvus 以其卓越的高维向量处理能力，成为了支撑这一关键功能的理想选择。

01.

需求与挑战

在逆合成路线设计中，相似反应检索面临的挑战更加复杂和严苛。以下是在开发过程中遇到的主要需求与挑战：

1、高效处理庞大的化学反应数据

在设计逆合成路线时，化学家需要从庞大的反应数据库中快速找到与当前步骤相似的反应。这些数据库往往包含数百万条甚至数亿条反应记录，这些记录涉及到各种复杂的化学结构和反应机制。因此，我们的系统需要在极短的时间内从如此庞大的数据集中筛选出最相关的反应。

2、高维向量相似度计算的复杂性

逆合成分析涉及大量高维度的化学结构和反应指纹，这些指纹通常以高维向量的形式存储和比较。传统的数据库难以高效处理这些高维向量间的相似性计算，而逆合成设计过程又要求在海量数据中快速定位到相关性最高的反应，这对系统的计算能力和算法提出了极高的要求。

3、系统的实时性与扩展性要求

逆合成路线设计通常需要支持实时的用户交互。化学家在设计过程中会不断调整和优化合成路径，每一次调整都需要系统迅速响应，提供相关的相似反应建议。因此，系统不仅需要在当前数据规模下保持高效，还需具备良好的扩展性，以应对未来可能的数据库扩展和查询请求的增长。

4、检索结果的质量与相关性

在逆合成过程中，检索出的相似反应不仅需要在结构上相似，还必须在化学性质和反应条件上具有较高的相关性。这意味着，检索系统不仅要考虑到简单的结构相似性，还需结合化学反应机理、反应条件以及其他领域特定的知识进行结果优化，以提供真正有价值的参考。

02.

解决方案

针对上述挑战，我们选择了 Milvus 作为核心的向量数据库来支撑相似反应检索功能。Milvus 在处理大规模、高维度向量数据的过程中表现卓越，特别是在逆合成路线设计中，这些特性显得尤为重要。我们的解决方案主要包括以下几个方面：

1、化学反应数据的向量化处理

逆合成路线设计依赖于对化学反应步骤的精确描述。这些描述通常通过化学指纹（如ECFP等）转换为高维向量。我们使用专业的化学信息学工具将每一个反应步骤的分子结构和反应条件转换为高维度的指纹向量。这些向量数据作为 Milvus 的输入，为后续的相似性检索打下基础。

在具体实施中，我们针对不同类型的化学反应设计了不同的向量化方案。通过对反应中各组分（如反应物、催化剂、溶剂等）的特征提取，我们生成了更符合化学家需求的多维向量表示，使得检索出的相似反应在结构上更加贴近实际应用场景。

2、高效的索引构建与优化

为了确保检索的速度和精度，我们在 Milvus 中为每一组反应数据构建了适合的索引结构。我们选择了 IVF (Inverted File Index) 索引结构，因为它在处理高维向量数据时，能够在确保精度的同时提供更快的检索速度。

IVF 索引通过将数据空间划分为多个簇，每个簇内的数据使用量化向量进行近似表示，从而大幅度减少搜索空间，提高检索效率。在我们的系统中，IVF 索引不仅缩短了检索时间，还显著提高了检索精度，确保了化学家在设计逆合成路线时能够快速获得高质量的相似反应建议。

3、分布式部署与性能扩展

为了应对数据规模的不断增长以及高并发的查询需求，我们将 Milvus 部署在分布式计算环境中。通过 Kubernetes 和 Docker 的结合使用，我们实现了系统的容器化部署，使得 Milvus 能够在多个节点上并行处理数据和查询请求。

这一分布式架构不仅提升了系统的可扩展性，还增强了系统的容错能力。在高负载或节点故障的情况下，系统能够自动扩展和恢复，从而保证了相似反应检索的高可用性和稳定性。与此同时，我们还引入了缓存机制和负载均衡策略，以进一步优化系统的性能和用户体验。

4、结果的筛选与优化

在检索到相似反应后，我们并不是直接将结果呈现给用户，而是进一步结合化学领域的专业规则进行筛选和排序。例如，我们会根据反应条件的相似性、反应产率以及反应的适用性等多个维度，对检索结果进行加权评分。最终，系统将最符合逆合成设计需求的相似反应优先展示给用户。

这一过程不仅提高了检索结果的相关性和实用性，还使得化学家在实际应用中能够更快地找到适用的反应步骤，进而优化整个合成路线设计。这种基于多维度条件筛选的结果优化策略，极大地增强了系统的智能化水平，使其能够更好地服务于逆合成路线设计的实际需求。

03.

实施效果

通过两个详细的流程图展示了逆合成路线设计中使用 Milvus 向量数据库进行相似反应检索的完整过程。

自从在我们的逆合成路线设计产品中引入 Milvus 进行相似反应检索后，我们在多个方面取得了显著的成效：

1、检索效率的大幅提升

通过使用 Milvus 的 IVF 索引和分布式架构，我们显著提高了相似反应检索的效率。在处理包含数百万条反应记录的大型数据库时，系统能够在秒级时间内返回相关的相似反应结果。相比传统方法，检索速度提升了10倍以上，大大缩短了逆合成设计的周期。

2、系统扩展性的增强

得益于 Milvus 的分布式设计，我们的系统能够轻松应对数据规模的增长和查询请求的增加。无论是数据节点的扩展还是计算资源的增加，系统都能够快速响应，保持高效稳定的性能。这为我们在未来扩展数据库规模以及应对更复杂的查询需求提供了坚实的基础。

3、检索结果的高质量与高相关性

通过结合 Milvus 的高效检索与化学领域特定的规则筛选，我们提供的相似反应不仅在结构上具有高度相似性，还在实际应用中具备较高的相关性。这种高质量的检索结果帮助化学家在设计逆合成路线时，更加自信和高效地做出决策，减少了实验的盲目性和失败率。

4、用户体验的显著改善

系统的高效性和结果的高质量使得用户的满意度显著提高。化学家们可以更快、更精准地找到所需的相似反应，优化他们的逆合成路线设计。这种体验的提升，不仅提高了他们的工作效率，还增强了对我们产品的信任和依赖，推动了系统在科研和工业领域的广泛应用。

04.

结语

通过利用 Milvus 的高效向量处理能力，我们成功应对了大规模数据处理和高维向量计算的挑战，为逆合成设计提供了强有力的技术支持。随着技术的不断进步和系统的持续优化，我们相信未来的逆合成路线设计将更加智能化、高效化，为化学研究和药物开发带来更大的创新和突破。

最新文章

Neo4j×Milvus：手把手教你搭建GraphRAG Agent

来一场数据集成技术与向量数据库的“双向奔赴”！

JinaCLIP×Milvus：手把手教你搭建多模态RAG系统

大语言模型鼻祖Transformer的模型架构和底层原理

面向生成式 AI 的向量数据库：架构，性能与未来趋势

Late Chunking×Milvus：如何提高RAG准确率

聊一聊：OpenAI o1完整版即将发布，你有什么期待？

手把手系列丨如何使用Milvus Backup备份向量数据

聊一聊：ChatGPT搜索引擎会取代谷歌和百度吗？

一文读懂什么是RAG，如何搭建多模态RAG降低大模型幻觉

AI校园新星直通车再启动：Zilliz助您踏上开源舞台

Milvus 表情包上线啦！加入开源社区，用表情传递热情！

算法打败文盲，我用向量数据库与RAG，做了个“鲁迅没说过”

报名进行中丨11月2日深圳Unstructured Data Meetup

手把手系列丨在Kubernetes部署Milvus开源向量数据库

GenAI 生态系统现状：不止大语言模型和向量数据库

Forrester Wave™ 向量数据库报告：Zilliz 进入领导者象限

年度重磅：「非结构化数据峰会」报名正式启动

如何处理海量数据？基于Milvus向量数据库的高度可扩展性

(内含福利!!)11月2日深圳Unstructured Data Meetup等你来！

智联招聘×Milvus：向量召回技术提升招聘匹配效率

还能报名：向心力｜中美 AI 应用与落地分享沙龙

里程碑丨Milvus在GitHub上的Stars数量突破30,000！

开源向量数据库性能对比: Milvus, Chroma, Qdrant

聊一聊：如何精确搜索到表达金桂飘香的古诗词

如何使用OpenAI文本Embedding模型构建AI系统

叮，这是一份来自Zilliz的近期活动高光回放

深度解读GraphRAG：如何通过知识图谱提升 RAG 系统

客户案例丨Milvus与CLIP模型在转转风控的应用

Milvus×Dify半小时轻松构建RAG系统

直播预告丨大模型与向量数据库会碰撞出怎样的火花

从Naive RAG到Agentic RAG：基于Milvus构建Agentic RAG

聊一聊：距离诺贝尔文学奖颁给AI还有多远？

孙悟空 + 红楼梦 - 西游记 = ？一文搞懂什么是向量嵌入

上海站nMeetup开始报名 | 10月26日下午，Zilliz与你相约Database+AI Infra

使用Milvus和Llama-agents构建更强大的Agent系统

不容错过：向心力｜中美 AI 应用与落地分享沙龙

知识图谱融入向量数据库，带来RAG效果飞升

Deep Dive丨多副本功能：提升QPS和系统可靠性

手把手系列丨如何利用 Milvus 实现多模态搜索

Forrester Wave™ 向量数据库报告：Zilliz 获评领导者象限最高分

我们是向量数据库的领军企业，我们只招TOP人才

快速实现AI搜索！Fivetran 支持 Milvus 作为数据迁移目标

如何全面洞察集群状态？Zilliz Cloud 发布监控告警系统新特性

如何更高效传输非结构化数据？Zilliz 推出全新数据迁移服务

直播预告丨Milvus在OPPO的语音与图像检索实践

Deep Dive | Zilliz Cloud正式推出 Serverless 版

科技企业如何做好全球化？Zilliz、Fotor、Answer.ai的经验与建议

活动预告｜Data Fun Summit 2024，Gen AI时代的向量数据库要怎么做

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉