加快构建高质量数据集,为人工智能全面发展夯实基础底座

文摘   2024-11-11 18:44   湖北  


近年来,人工智能成为了赋能千行百业应用创新的动力源。作为三大引擎之一,高质量、大规模、丰富性的数据集正在成为人工智能竞争的关键因素。

近日,中共中央办公厅、国务院办公厅正式公布《关于加快公共数据资源开发利用的意见》,从扩大公共数据资源供给、规范公共数据授权运营、推动数据产业健康发展等方面提出17项具体措施。

这是中央层面首次对公共数据资源开发利用进行系统部署,旨在充分释放公共数据要素潜能,推动数据市场高质量发展。

据IDC测算,2021-2026年中国数据量规模将由18.51ZB增长至56.16ZB,CAGR达到24.9%,高于全球平均水平。从数据来源看,国内各行业数据资源丰富、差异化发展显著。

图源:CCSA TC601大数据技术推进委员会

然而,尽管数据规模不断增长,人工智能领域高质量数据集缺乏、数据供给的产业生态不健全、企业数据资源获取成本高等问题却依然严峻。

数据库作为存储和管理数据的基础底座,是人工智能技术不可或缺的组成部分,在库内集成机器学习算法、支撑大语言模型部署、提升检索精度等方面,数据库起到了举足轻重的作用。

数据库对AI的支撑作用

助力AI高效建模
数据库能够通过内部原生或集成机器学习的算法,帮助数据科学家进行人工智能探索与应用的过程中简化操作步骤快速构建模型。在建模过程中,企业可以将数据保留在数据库内从而简化整体架构,提升数据计算、模型开发及测试的性能,确保数据同步和安全性。
提升结构化数据处理
聚焦于提高非结构化数据处理能力、加强与大模型的集成、增加智能化和自动化查询优化,以及强化数据安全和隐私保护措施。通过嵌入的方式,将高维度的离散数据(如文本、图像、音视频等)映射到低维度的连续空间中,从而更好地捕捉数据之间的潜在关系和语义信息。
增强大模型检索能力
针对向量数据的快速相似性搜索能力和百亿条以上的超大规模数据管理能力,支持多种面向的最近邻搜索算法,在智能搜索、内容推荐、自然语言处理等多个领域发挥更加关键的作用,能为用户提供更加丰富与个性化的数据服务,推动着人工智能领域的创新和应用。

得益于国家战略引领和人工智能催生的庞大需求,我国数据库产业进入蓬勃发展期和关键应用期。从技术布局和应用需求看数据库技术未来发展趋势:

一是将持续推进面向重点行业、核心业务的关系型数据库产品的性能、稳定性升级,优化完善技术开发、运维工具、迁移工具、应用接口、语句兼容创新等配套生态产品。

二是向量数据库、HTAP数据库等创新型产品研发将进一步加快,特别是支撑AI应用的数据库产品,为传统行业数字化转型提供更加强大的底层技术支持。


来源:IDC、中国信通院、CCSA TC601等公开资料
编审:办公室


数据湖北
湖北省数据局信息公开、服务社会的官方平台。发布权威信息,解读重大政策,提供政务服务等。
 最新文章