如何更高效传输非结构化数据？Zilliz 推出全新数据迁移服务

文摘 2024-09-24 19:31 上海

作为领先的向量数据库服务提供商，Zilliz 深知开发出色的 AI 应用离不开数据本身。然而，在有效处理 AI 应用中的非结构化数据时，我们常常会面临以下挑战：

数据碎片化：用户数据分散在多个平台中，如 S3、HDFS、Kafka、数仓和数据湖。
多样的数据格式：非结构化数据以各种格式存在，包括 JSON、CSV、Parquet、JPEG 等。
缺乏完整的解决方案：目前没有一款产品能够完全满足跨系统高效传输非结构化数据和向量数据的复杂需求。

在上述这些挑战中，最突出的就是，如何将转化来自各种数据源和以各种格式存在的非结构化数据，并导入向量数据库中。这一过程比处理传统的 SQL 关系型数据要复杂得多，大部分公司或组织都低估了这一点。

因此，许多公司或组织在搭建自定义的非结构化数据流水线（Pipeline）时，通常会面临性能、可扩展性和维护成本的问题。这些问题可能会影响数据质量和准确性，从而可能削弱应用的数据分析能力。

更糟糕的是，许多公司在选择向量数据库时都忽视或者低估了供应商锁定和数据容灾等因素。

01.

供应商锁定带来的影响

供应商锁定是指一个组织过度依赖单一供应商的专有技术。在这种情况下，该组织会难以切换到另一种解决方案，或者切换方案的成本十分高昂。这个问题在向量数据库领域尤为重要，由于向量数据的特性和缺乏标准化数据格式可能使得跨系统数据迁移变得极具挑战性。

供应商锁定的影响远不止于此。它还限制了组织在面对业务需求变化时的灵活性，甚至可能随着时间的推移会进一步增加组织运营成本。此外，锁定单一供应商的生态系统还会限制技术创新。如果所选解决方案无法很好地随着组织需求的增长而扩展，还会影响应用系统的性能。

在选择向量数据库时，组织应优先考虑开放标准（open standards）和互通性，从而降低上述风险。在制定清晰的数据治理策略过程中，规划数据的可移植性至关重要。定期评估对供应商特定功能的依赖程度，可以帮助组织保持系统灵活性。

02. 非结构化数据迁移的挑战

然而，即使有了上述预防措施，组织也必须准备好面对向量数据库带来的独特挑战。我们发现，向量数据库之间的数据迁移比传统的关系型数据库之间的数据迁移要复杂得多。这种复杂性凸显了选择合适的向量数据库的重要性，并解释了为什么需要注意避免供应商锁定。向量数据库迁移的主要挑战包括：

缺乏面向向量数据库的 ETL 工具：像 Airbyte 和 Seatunnel 之类的主流工具仅面向传统的关系型数据库，无法有效满足向量数据库之间的数据迁移需求。
向量数据库之间能力差异：

许多向量数据库不支持数据导出。
部分向量数据库的增量数据实时处理能力有限。
向量数据库之间的数据 Schema 不匹配。

为应对这些挑战，组织需要构建更具弹性、灵活性和与时俱进的 AI 应用，充分利用非结构化数据的力量，并保持适应未来技术的灵活性。

03. Zilliz 推出全新迁移服务

Zilliz 推出全新迁移服务（Migration Services）并将其开源，以帮助用户应对上述种种挑战。Zilliz 迁移服务是一款基于 Apache Seatunnel，专为向量数据迁移设计的工具。推动我们我们开发这款工具的背后原因包括：

满足日益增长的数据迁移需求：我们最初提供的 Milvus 迁移服务已成功帮助 100 多个组织实现 Milvus 集群之间的数据迁移。本次的迁移服务需求正是由此演变而来。用户需求不断扩展，演变为将数据从不同的向量数据库、传统的搜索引擎（如 Elasticsearch 和 Solr）、关系型数据库、数仓、文档数据库，甚至 S3 和数据湖迁移到 Milvus。
支持实时流数据流和离线导入：随着向量数据库能力的不断扩展，用户需要对实时流数据的支持和离线批量导入的能力。
简化非结构化数据转换流程：与传统 ETL 不同，转换非结构化数据需要借助 AI 模型的力量。迁移服务结合了 Zilliz Cloud Pipelines，能够将非结构化数据转换为 Embedding 向量并完成数据标记等任务，显著降低数据清洗成本和操作难度。
确保端到端的数据质量：数据集成和同步过程中容易出现数据丢失和不一致的问题。迁移服务通过强大的监控和告警机制解决了这些可能影响数据质量的问题。

04. 迁移服务的核心能力

迁移服务基于 Apache Seatunnel 开发，提供以下特性：

丰富、可扩展的 Connector
统一的数据流式和批式处理，用于实时同步数据和离线批量导入
支持分布式数据快照，确保数据一致性
高性能、低延时、高度可扩展
实时监控和可视化管理

图1. 迁移服务工作原理

此外，迁移服务还包含针对向量数据的特定功能，如支持多种数据源、匹配 Schema 和基本的数据验证等能力。后续将进一步支持增量数据同步、全量+增量迁移模式，以及更高级的数据转换能力。

05. 为什么选择将迁移服务开源？

Zilliz 始终坚信开源的力量可以推动创新并为开发者提供最佳的解决方案。以下是我们选择将迁移服务开源的原因：

培养开放的向量数据生态系统：我们构建的生态系统能够有效避免供应商锁定的问题，允许您根据需要灵活选择和切换解决方案。
吸引贡献者：我们可以借助开发者社区中的专业知识，进一步增强迁移服务工具。我们欢迎您为这个项目添砖加瓦——增加更多 Connector、集成更多数据源和更多数据转换模型。
回馈开源社区：作为一家开源向量数据库公司，我们着眼于知识和资源共享，期望推进整个领域的发展。
提升云服务产品：您的反馈对于我们商业化产品至关重要。我们将基于您的反馈快速迭代和改进产品。开源能够让我们听到更多来自社区的宝贵建议。

我们始终坚持开源，这不仅仅体现在共享代码上。我们认为开发者只有在一个开放的生态系统中，才能始终拥有选择权。这驱使我们努力追求卓越，确保 Zilliz 始终是满足您需求的最佳决策。无论是通过快速迭代产品、提供全面支持还是扩展产品能力，我们的目标是通过持续提供价值，来赢得您的信任。

06. 迁移服务路线图

展望未来，迁移服务将不断发展。通过开源迁移服务工具，我们不仅仅能够解决当前向量数据管理中的问题和挑战，我们还在为创新型 AI 应用开发铺平道路。

图2. 迁移服务 Roadmap

我们的愿景是开发工具，满足开发者需求。我们正不断努力，期望推动数据和 AI 技术发展，降低其使用门槛，提升这些技术的灵活性，满足真实应用场景的需求。我们邀请社区中的每一位成员加入这段旅程，为强大的非结构化数据处理工具做出贡献，并从中获益。让我们携手合作，塑造向量数据库的未来，共创一个更开放、高效和创新的 AI 生态系统。

作者介绍

栾小凡

Zilliz 合伙人和研发 VP

LF Al & Data 基金会技术咨询委员会成员

Zilliz

Simply The Fastest Vector Database for AI. Period.

最新文章

手把手系列丨如何使用Milvus Backup备份向量数据

聊一聊：ChatGPT搜索引擎会取代谷歌和百度吗？

一文读懂什么是RAG，如何搭建多模态RAG降低大模型幻觉

AI校园新星直通车再启动：Zilliz助您踏上开源舞台

Milvus 表情包上线啦！加入开源社区，用表情传递热情！

算法打败文盲，我用向量数据库与RAG，做了个“鲁迅没说过”

报名进行中丨11月2日深圳Unstructured Data Meetup

手把手系列丨在Kubernetes部署Milvus开源向量数据库

GenAI 生态系统现状：不止大语言模型和向量数据库

Forrester Wave™ 向量数据库报告：Zilliz 进入领导者象限

年度重磅：「非结构化数据峰会」报名正式启动

如何处理海量数据？基于Milvus向量数据库的高度可扩展性

(内含福利!!)11月2日深圳Unstructured Data Meetup等你来！

智联招聘×Milvus：向量召回技术提升招聘匹配效率

还能报名：向心力｜中美 AI 应用与落地分享沙龙

里程碑丨Milvus在GitHub上的Stars数量突破30,000！

开源向量数据库性能对比: Milvus, Chroma, Qdrant

聊一聊：如何精确搜索到表达金桂飘香的古诗词

如何使用OpenAI文本Embedding模型构建AI系统

叮，这是一份来自Zilliz的近期活动高光回放

深度解读GraphRAG：如何通过知识图谱提升 RAG 系统

客户案例丨Milvus与CLIP模型在转转风控的应用

Milvus×Dify半小时轻松构建RAG系统

直播预告丨大模型与向量数据库会碰撞出怎样的火花

从Naive RAG到Agentic RAG：基于Milvus构建Agentic RAG

聊一聊：距离诺贝尔文学奖颁给AI还有多远？

孙悟空 + 红楼梦 - 西游记 = ？一文搞懂什么是向量嵌入

上海站nMeetup开始报名 | 10月26日下午，Zilliz与你相约Database+AI Infra

使用Milvus和Llama-agents构建更强大的Agent系统

不容错过：向心力｜中美 AI 应用与落地分享沙龙

知识图谱融入向量数据库，带来RAG效果飞升

Deep Dive丨多副本功能：提升QPS和系统可靠性

手把手系列丨如何利用 Milvus 实现多模态搜索

Forrester Wave™ 向量数据库报告：Zilliz 获评领导者象限最高分

我们是向量数据库的领军企业，我们只招TOP人才

快速实现AI搜索！Fivetran 支持 Milvus 作为数据迁移目标

如何全面洞察集群状态？Zilliz Cloud 发布监控告警系统新特性

如何更高效传输非结构化数据？Zilliz 推出全新数据迁移服务

直播预告丨Milvus在OPPO的语音与图像检索实践

Deep Dive | Zilliz Cloud正式推出 Serverless 版

科技企业如何做好全球化？Zilliz、Fotor、Answer.ai的经验与建议

活动预告｜Data Fun Summit 2024，Gen AI时代的向量数据库要怎么做

朋友圈装腔指南：如何用向量数据库把大白话变成古诗词

手把手系列｜一篇文章教会你使用有RAG功能的CAMEL框架

客户案例｜Zilliz Cloud 助力 MindStudio 搭建无代码平台，革新 AI 应用开发方式

使用 Milvus、vLLM 和 Llama 3.1 搭建 RAG 应用

官宣：Zilliz 在亚马逊云科技中国区正式开服！

图像与文本并存，多模态检索如何带来新的搜索革命

聊一聊：你最想用大模型实现的功能是什么

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉