文本、图像、音视频等海量的非结构化数据占数据总量不断上升,预计2025年,将达到八成以上。这些数据由于结构不统一,所以在计算机中通常以向量形式进行特征提取后,再进行存储、计算、应用。为了解决海量数据场景下,向量的存储、计算问题,向量数据库应运而生,其通过数据算法和计算机工程,将向量特征进行分组和索引,以实现高效的相似性搜索。《数据库发展研究报告(2023年)》显示,向量数据库作为12个数据库技术发展趋势之一,其使用场景十分广泛,包括但不限于支撑文本翻译、产品推荐、语义搜索、图像搜索、视频推荐、异常检测、欺诈检测、人脸识别等应用。
近日,在中国信通院“可信数据库”向量数据库产品测试中,中电信人工智能科技(北京)有限公司(简称:电信智科)星海·多模态融合PaaS平台顺利完成向量数据库产品基础能力测试。测试过程依据标准在基本功能、运维管理、安全性、兼容性、扩展性、高可用以及工具生态七大能力域的相关要求。测试结果表明,该产品在向量数据库的功能完备性、易用性、通用性等方面均符合标准要求。
《向量数据库技术要求》是中国信通院云计算与大数据研究所依托中国通信标准化协会大数据与区块链工作组(CCSA TC1 WG6)以及大数据技术标准推进委员会(CCSA TC601),联合超过50家企业专家参与编制的技术标准。其包含基本功能、运维管理、安全性、兼容性、扩展性、高可用以及工具生态七大能力域共47个测试项,其中分为27个必选项和20个可选项。作为业内首个向量数据库技术标准,可为向量数据库的研发、测试以及选型提供参考。
中国电信TAP(Telecom AI Platform)底座是一款电信自研数据底座平台,为各类模型的训练推理提供算力与存力的稳定服务。本平台具备异构算力统一纳管、跨集群算力统一调度、大规模训推场景优化加速、任务自愈和智能运维、高性能存储等能力,平台已具备向量数据库功能,支持sql检索向量数据库并且跟其他数据库进行关联。目前已为星河平台等AI场景中的向量存储、检索等场景提供高性能、灵活、兼容性强的向量数据库服务。
多模态融合检索:TAP中的向量数据库向用户提供高效的向量检索服务,支持全文检索和音视频数据向量化存储等,已支持亿级低库查询和十亿级超大规模检索
易用性与兼容性:TAP平台的向量数据库支持多种数据源和机器学习框架,便于开发者集成和使用,同时支持部署在搭载包括飞腾,鲲鹏,海光等多种国产CPU的服务器上,支持部署在麒麟等国产操作系统上,对于国产训练推理卡如昇腾系列产品也做了适配。
“可信数据库”具体测试流程如下
报名周期:即日起开始报名,2024年11月15日截止
测试时间:2024年9月-11月下旬
专家评审会时间:2024年12月上旬
证书颁发:2024年12月18、19日数据资产管理大会
联系人:刘老师 13691032906