从零开始,用万行代码打造专属向量数据库!

文摘   2024-10-29 07:40   北京  
2023 年,向量数据库的风在 AI 圈吹得一浪高过一浪,好几个初创公司拿到了巨额投资。媒体挟向量数据库狂轰滥炸,一种技术同时在技术圈和投资圈如此受青睐的情况实属罕见。
传统的数据库技术疲于应对向量数据在高维度、高精度和大规模场景下带来的巨大挑战,而 ChatGPT 等基于的生成式 AI 模型处理的正是此类数据。
向量数据库“AI 大基建的”的位子基本做实,向量数据库的先行者们也已经真刀真枪地练起来,但更多渴望了解这门技术的普通读者依然对向量数据库技术的细节了解不多。
2024年,媒体方面安静了很多,甚至开始有媒体炒作向量数据库“凉凉”——想啥呢,技术已经开始进入真正的实操与落地阶段,大家都铆足劲叠 buff 呢~ 
这时候踏踏实实地去研究一下技术才是正经事。说来,很多朋友苦于市面上没有系统介绍向量数据库的参考书,一直上下求索各种七零八碎的资料。不好意思,让大家久等了——珊瑚书来了!
作者:罗云

京东已经上架了,点上面加购

关于珊瑚书,我们来聊聊几个大家关注的问题。
1.为什么叫珊瑚书
《从零构建向量数据库》是市面上首本原创的「向量数据库」图书。因为封面上的主图是珊瑚得名而来。本书作者罗云认为,珊瑚为多种海洋生物提供栖息地,是海洋生态的重要维护者,这与向量数据库在当前和未来 AI 时代的基础设施支撑作用非常相像,这本全力以赴教大家从零打造向量数据库的图书是为「珊瑚书」。
2.为何要用珊瑚书学习向量数据库
主要有两点:
  • 一方面,简单好学——内容务实、扎根实战,从写 Hello World! 开始,用10000 行代码带大家真正学会写向量数据库;
  • 另一方面,作者背景非常专业。罗云为腾讯云向量数据库负责人,带领团队积累了丰富的一线经验(国内最早搞向量数据库的团队之一)。
细说起来,珊瑚书有以下几大特色:
1.【实操】涉及技术原理、实现细节和实践应用,涵盖向量数据库的方方面面
2.【生动】10次版本迭代/10000行代码;27张表/41幅图/22个思维导图轻松学 
3.【专业】作者罗云是腾讯云向量数据库负责人,带领团队积累了丰富的一线经验
4.【热门】自制成功立马投入实践,带大家结合RAG实现个人知识库等大模型应用
5.【简单】附赠随书代码,随学随查——原来,构建向量数据库如此简单!
大家可以点击以下思维导图了解图书的详细目录:
(可放大查看)

当然,我们反复强调的从零构建并不是说啥都得自己写,毕竟向量数据库涉及的功能太多了,有很多开源项目已经封装好了我们需要的功能,这时候无须自己编写代码,直接引用开源库来实现即可。下表列出了本书引用的开源库及许可协议。

(一句话,该借的借,该造的造)
3. 珊瑚书特别适合哪些读者

本书是一本实战类图书,也涉及简单的原理解析,书中的技术点都是初级程序员就可以理解的。如果你完全不了解编程,建议先打好编程基础,毕竟书里有不少需要你动手操作的源码。

  • 如果你对向量数据库感兴趣,想深入了解向量数据库源码级别的构建过程,本书将教你从零打造一款分布式向量数据库。内容涉及:如何从单机数据库引擎开始构建索引系统,如何增强系统的故障恢复能力,以及如何实现数据库的分布式和集群运作,包括数据复制、流量调度和元数据管理等核心技术。
  • 如果你对数据库领域感兴趣,想深入了解数据库源码级别的构建过程,本书同样适合你阅读——分布式向量数据库的完整构建过程涵盖了这一领域的核心知识。
  • 如果你对 AI 应用开发感兴趣,想了解 AI 应用背后的向量数据是如何生成和管理的,本书将介绍向量数据与大模型的关系,并带你学习向量数据库查询的整个流程。这将帮助你更好地结合向量数据库优化 AI 应用,更新知识,更有效地应对 AI 应用落地过程中的挑战。
  • 如果你是 AI 应用开发专家或数据库领域的专家,希望帮助本书发现改进之处,推动行业发展,本书也值得一读。阅读本书可能会激发你更多有价值的思考。向量数据库是一个较新的领域,更多的信息共享无疑会促进这一领域的进步。

4. 罗云其人

珊瑚书的作者罗云是腾讯云向量数据库负责人。腾讯云团队是国内向量数据库技术的先行者之一,腾讯云的AI 原生(AI Native)向量数据库 Tencent Cloud VectorDB 是国内首个从接入层、计算层、到存储层提供全生命周期 AI 化的向量数据库。
关于罗云的正式介绍如下。
腾讯云数据库副总经理、腾讯云创始团队成员、中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)数据库与存储工作组副组长。
十余年云计算产品技术专家,在复杂分布式系统的建设和管理上实践多年并积累了丰富的经验,擅长将数据治理技术(采集、加工、存储、检索)和AI结合,在AI时代更好地发挥数据的价值。领导多个平台或产品完成从0到1的上线与商业化运营,达到国内领先水平,其中包括:
  • 一站式 Serverless开发平台(小程序云开发) 

  • TencentDB for Redis/MongoDB/KeeWiDB、Tencent Cloud VectorDB等数据库产品

  • 腾讯云数据传输服务(DTS)、数据库智能管家(DBbrain)等多款数据采集和智能化应用平台
5. 领域专家审阅推荐
本书在出版之前,有幸邀请到 AI 及数据库领域的专家审阅,诸位简单总结了他们对本书的评价,供大家参考。
王江舟 | 刘 颖 | 李国良 | 杜小勇刘知远 | 王昊奋 | 盖国强 | 杨成虎 联  袂  推  荐

本书是罗云及其团队在AI领域探索的智慧结晶。它不仅深入揭示了向量数据库的工作原理,更提供了丰富的场景案例和实践启发。无论是AI技术的探索者,还是AI应用的创新者,都能从这本书中获得宝贵的灵感和指导。
——王江舟,中国工程院外籍院士

罗云是云计算行业早期的从业者和资深专家,在数据库、网络和分布式系统方面具有丰富的经验。本书从实践出发,深入浅出地讲解了如何打造高性能向量数据库,推荐大家阅读。
——刘颖,腾讯云副总裁

AI的发展呼唤多模态数据的统一表征和管理,向量数据库应运而生,是数据库大家族的新宠。本书深入浅出地介绍其基本概念,从零开始、逐步深入、重视实战,是学习向量数据库很好的参考书!
——杜小勇,中国人民大学信息学院教授、教育部数据工程与知识工程重点实验室主任

本书汇集了罗云以及腾讯云数据库团队多年服务于腾讯集团及其外部客户的丰富经验。书中内容浅显易懂,非常适合对向量数据库技术感兴趣的技术人员阅读。
——李国良,清华大学教授、IEEE Fellow

在“AI平民化”浪潮中,向量数据库作为新兴技术,正迅速成为AI应用的基石。本书以其深入浅出的讲解和实战导向的内容,填补了市场空白。推荐数据库和AI相关领域的从业者阅读。
——刘知远,清华大学副教授

本书不光理论与实践并重,更是一部揭示未来数据管理方向的重要指南。如果你希望在AI时代站在技术前沿,掌握构建和应用向量数据库的核心技能,那么本书无疑是你不可或缺的良师益友。
——王昊奋,同济大学特聘研究员、OpenKG(中文开放知识图谱联盟)发起人

罗云及其团队在向量检索领域探索多年,积累了诸多先行者的宝贵经验。本书是罗云对向量数据库深刻理解和洞察的系统体现,填补了向量数据库图书的空白。相信所有读者通过动手躬行,一定能够从无到有地构建向量数据库,并真正理解其本质。
——盖国强,云和恩墨创始人、鲲鹏MVP(最有价值专家)

本书既包含向量技术理论,也有分布式数据库的实践经验,同时也阐述了相关的应用场景,不仅适合数据库领域的专业人士阅读,也适合对AI技术感兴趣的朋友参考。
——杨成虎,北京枫清科技联合创始人 & CTO

扫下面这个图的

二维码也可以购买
PS:如果你想更详细地了解本书内容,「图灵社区」上可以免费下载本书的试读内容(含目录、前言、第4章“实现单机版向量数据库”的部分内容)。
你同时可以下载本书代码。本书代码免费提供给大家,㊗️大家早日掌握 AI 大基建系列技术。
点击「阅读原文」可以前往图灵社区珊瑚书页面。

AI技术研习社
专注分享人工智能、大模型、算法、大数据开发、数据分析领域的技术干货和落地实践!
 最新文章