数据编织:赋能 6G 时代数据融合

文摘   2024-05-11 12:02   江苏  


编者荐语:



6G 时代即将到来,数据将成为驱动未来科技创新的核心动力。然而,海量数据的爆发式增长和多样化给数据管理带来了前所未有的挑战。如何高效融合和利用这些数据,成为一大重要课题。在 6G 网络建设过程中,应提前规划并实施基于数据编织的数据融合策略,以避免未来可能面临的数据孤岛、数据安全等困境。本文探讨了数据编织技术的演进方向和面向 6G 的数据编织框架,以期为 6G 网络建设提供参考和借鉴。


数据编织:赋能 6G 时代数据融合

亚信科技(中国)有限公司

摘要:6G 时代将迎来通信、感知、计算的深度融合,带来数据量的爆炸式增长和类型多样化,对数据管理提出严峻挑战。数据编织技术凭借其自动化、智能化的数据集成和治理能力,成为应对这些挑战的关键。本文分析了 6G 数据融合面临的多维度挑战,包括数据规模、类型多样性、孤岛现象、数据治理和安全隐私等。随后,介绍了数据编织技术的概念、优势和关键技术,并阐述了面向 6G 的数据编织框架及其应用场景。最后,探讨了数据编织技术面临的挑战和未来发展趋势。数据编织技术将为 6G 时代的创新发展和构建高效、安全的数据生态系统提供有力支持。
关键词:6G,数据融合,数据编织,语义知识图谱,主动元数据,DataOps,数据虚拟化

6G时代的数据融合挑战

6G网络将开启一个前所未有的数据密集型时代。通信、感知、计算的深度融合将带来数据量的爆炸式增长,数据类型也将更加多样化和复杂化。同时,6G 网络将实现真正的万物互联,支持如卫星网络、行业网络、体域网等异构网络和海量终端,实现包括陆海空天在内的全球无缝覆盖[1]这种复杂的环境将进一步加剧数据的分散性和管理难度,形成大量“数据孤岛”,给数据管理和利用带来了严峻挑战。

(一) 数据量的爆炸式增长

随着 6G 时代的到来,未来将衍生出诸多新型产业和场景,部署各种新型应用,如通信感知一体化、内生 AI(Artificial Intelligence)[2] 。同时由于通信感知融合,终端和传感器无处不在,网络自身也成为海量数据的生产者。据 IDC 的预测,到 2025 年,全球将有 557 亿连接设备,其中 75%为 IoT 设备,到 2025 年它们将产生 73.1ZB。随着智能连接设备的普及,连接智能场景将产生和消费大量的数据,如一辆自动驾驶车辆,其配置的各类车载传感器,包括摄像头、激光雷达、声纳、雷达、GPS 等,每天产生约 4TB 数据。据 statista 预测,到 2025 年全球产生和消费的数据总量将达到 181ZB。而据华为预测,到 2030 年全球每年产生的数据总量将达到 1YB, 相比 2020 年增长 23 倍。


(二) 数据类型的多样化和复杂化

6G时代,数据将成为系统的核心,推动数字化与智能化的融合。6G多维数据可分为通信数据、感知数据和计算数据。通信数据是用户的通信载荷,包括各种通信场景中产生的数据。感知数据涵盖了各种感知测量数据,如基站与终端之间基于空口信号的测量数据,以及无线感知结果,如感知目标的定位、速度和成像等信息,同时还包括了来自传感器、摄像头等设备的多种模态感知结果,如温度、压力、图像、视频等。计算数据则包括了模型训练数据、算法模型数据以及网络外的数据计算处理结果。

当我们使用数据时,还会遇到不同数据源、类型、结构、环境、平台等挑战 。在 6G 时代,随着物联网、大数据、人工智能等技术的快速发展,数据量将呈现爆炸式增长,数据类型也将更加复杂多样[3]


这些数据将从各个维度产生和流动,成为推动智能化应用和服务的基础,为各行各业带来前所未有的变革和发展机遇。随着6G网络的发展,数据将不断增长,并呈现出多样性和复杂性。


(三) 数据孤岛现象加剧

数据是企业数字化转型重要驱动因素,在去中心化、分布式的网络架构趋势下,大量的数据产生于分布式模式下的多个节点中,数据源以及数据量不断增加。同时,不同的系统和应用程序可能会独立存储和管理其数据,导致数据孤立和难以整合,数据和应用孤岛的数量不断增加,多维数据的连接、协同、融合充满挑战。缺乏全面的数据访问和使用会导致智能化业务的能力难以开展,预测数据的可用性、可靠性降低,以及分析效率低下。企业必须使用一种新型的数据管理来应对企业数据资产日益加剧的多样化、分布式、规模、复杂性等问题。

(四) 数据安全和隐私保护

通感算一体化数据对6G网络的安全性提出了挑战。通感算一体化网络将拥有超海量的感知端点,数据的来源和特征都具有多样性特点,通感算一体化服务数据的真实性和安全性对6G网络系统的安全至关重要。高精度的定位和感知业务将会获取到大量来自个体或者组织的数据,需要遵循对个数数据权限保护的法律,数据的权限管理将会变得更加广泛而复杂。

(五) 多维度数据与数据融合

随着业务数字化运营不断深入,数十倍的用数人群、数百倍的数据规模增长和复杂多变的数字化应用,带来了效率、性能、风险、成本、安全、用户隐私保护等诸多问题[4]6G时代的数据来源将更加广泛,包括各种传感器、设备、应用等。如何将这些数据进行整合和关联,形成完整、准确的数据视图,是数据编织需要解决的关键问题。在6G环境下将面临着越来越复杂的数据管理需求,多云中的更多数据增加了碎片和复杂性,使得数据在物理上支离破碎,自动化是解决大规模数据碎片化和复杂性的唯一可行选择。

(六) 数据检索性能要求

集中式的数据研发与供给跟不上多变的业务需求节奏,而业务自助用数又得不到有序引导,导致数据无序增长严重、数据故障频发,数据供给侧挑战愈发明显。6G环境下爆炸的业务需求、复杂的数据工程使得数据编目、查找、集成和使用变得困难,需要一种解决策略,其能在数据之间建立动态的虚拟链接来连接孤立的数据源,通过数据和连接过程的自动化集成,提升数据的查询性能。

(七) 数据有效性要求


6G网络的数据传输速度将达到每秒1TB,这将对数据编织的处理速度提出更高的要求。如何快速、有效地处理如此大规模的数据,确保数据的一致性和完整性,是6G时代数据编织面临的重要挑战。6G对新数据的需求中,不同部门数据输入规范不同,造成数据冲突,业务人员将大量时间浪费在寻找数据和确认不信任的数据来源上,让数据的使用变得困难,无法用于决策。面向企业复杂的数据环境下数据管理敏捷性变得至关重要,需要通过自助式为企业内外部提供业务越来越复杂、实时性稳定性要求高且大量的数据应用访问需求。


(八) 数据主权


数字信息始终受到数据存储的国家/地区法律的制约,如何充分挖掘数据的内在价值,为各种业务提供精确支撑的同时兼顾隐私保护,尊重数据主权,已成为近年来的热门话题。在数据权属方面,以数据交易所和知识产权局为代表的机构提出了数据资产登记的要求,需要持续加强法律方面的建设。在数据安全和合规性上,随着各种数据安全和隐私保护法律出台以及内部的数据泄露隐患,各个企业都感受到了越来越大的压力,需要重新审视企业信息控制权利。在业务应用方面,数据风险越发呈现隐匿化、复杂化趋势,为适应6G业务所需的信息的持续流动,需要提供针对范围内云服务的相关数据传输、汇聚的合同保证。


面对这些数据融合挑战,数据编织技术作为新兴的数据管理理念和架构,能够将分散在各个系统中的数据进行整合,形成统一的数据视图,支持跨业务数据的即时有效访问,实现业务间有效协作,从而快速应对新的问题和需求,保持业务的竞争优势[5]


数据编织技术:应对数据融合挑战的关键

(一) 数据编织的概念和优势


1.数据编织的概念

Gartner将数据编织定义为包含数据和连接的数据操作层,通过对存储的、可感知和可预测的元数据进行不断地分析,支持数据系统跨平台的设计、部署和使用,从而可以自发现地将数据提供需要的使用者

IBM认为数据编织的本质是一个数据管理平台,包括数据发现、治理、管理和编排在内的、全面的集成数据管理功能[6]数据编织通过结合 AI、ML(Machine Learning)和数据科学的技术,改善分布式数据的访问,并进行智能的管理和编排,有助于简化数据访问,促进自助式数据使用。 数据编织应该能做到在正确的时间,任意位置,将正确的数据与正确的人连接起来,从而全面释放数据价值。


数据编织是一种新兴的数据管理和数据集成设计理念,是为应对复杂的混合数据环境所面临的挑战而设计的一种架构方式[7] 它侧重于实现统一多样化和分布式数据资产的功能,强调自动化的数据集成、整合和治理,以支持跨云环境下的便捷交付部署。数据编织基础理念是通充当数据端点之间的虚拟连接组织,它通过一个通用的架构,连接所有物理的、虚拟的、云化的环境,将可信数据从所有相关数据源、以灵活且业务可理解的方式交付给所有相关数据消费者,从而提供比传统数据管理更多的价值。


2.数据编织的优势

数据编织技术的优势主要体现在以下几个方面:


·打破数据孤岛:数据编织技术通过自动化数据集成和治理,消除数据孤岛,实现跨平台、跨领域的数据共享和协作,使企业的数据资产可见、可用,最大化释放数据的价值。


·提升数据可用性:数据编织提供统一的数据访问接口,简化数据获取流程,并利用先进的技术和工具,如知识图谱和语义技术,加快数据的访问速度,促进数据在组织内部和外部的安全共享,从而提高数据使用效率。


·降低数据管理成本:据 Gartner 预测,数据编织利用分析功能来持续监控数据管道,通过对数据资产的持续分析,支持各种数据的设计、部署和使用,缩短集成时间 30%,缩短部署时间 30%,缩短维护时间 70%。 数据编织架构形成一个系统性、动态的数据资产知识网络,在需要时根据需求交付所需的数据,而无需在发生改变时重新定义数据流,从而降低数据管理成本。


·促进数据驱动决策:数据编织支持数据素养和自服务分析,鼓励业务用户快速找到、整合、分析和共享数据,从而推动数据驱动的决策和创新。 同时,数据编织为集成新兴技术(如人工智能、机器学习等)提供了基础,使组织能够利用这些技术来增强数据分析和业务智能。


通过数据编织,企业可以更有效地实现“数据驱动”,满足“用上数据和用好数据”的核心需求,提升业务效率。


(二) 数据编织的关键技术

数据编织技术涵盖了多种关键技术,包括:


·语义知识图谱

语义知识图谱是一种用于组织和管理知识的技术,它通过图形结构来表示实体之间的各种语义关系。在数据编织的上下文中,语义知识图谱特指利用图谱技术来组织数据资产的元数据、数据之间的关系以及数据与其业务含义之间的联系。这种图谱不仅包含了数据的结构和属性,还包括数据的语义信息,即数据的意义和上下文。


·主动元数据

元数据是描述数据的数据,可以用来描述数据的属性、结构、来源、含义、关系等信息。而主动元数据是一种特殊的元数据,指的是在数据生产过程中主动收集和记录的元数据,它是一种动态的、自我更新的元数据形式。它不仅描述数据的结构和含义,还能够监控数据的流动、使用情况等,并根据数据的变化和访问模式自动更新自身。


·数据编排

数据编排是将多个存储位置中孤立的数据组合起来并呈现给数据分析工具的过程。数据编排分为三个主要步骤:组织,转换及激活数据。

数据编排涉及来自多个源的数据。数据编排过程将始终从指导程序了解它们将使用的数据的性质及其性质和数量开始。这些细节对于数据编排程序正确理解并因此组织它们将要处理的信息至关重要。当数据来自多个孤岛时,它们的格式可能并不完全相同。例如,如果正在处理数字,可能出现以多种不同方式编写的相同整数,即意义相同但是格式不一致。此阶段的重点是将所有数据转换为相同的格式。最后,激活数据阶段主要涉及将编译和转换的数据转换为与其将使用的工具兼容的格式。在激活阶段,处理后的数据将发送到对应的应用程序和工具。例如,这可能包括分析工具或其他旨在将数据处理和合成为可用形式的软件。

可以在数据编排中使用智能自动化,以有效地将这些工作流程从人类员工手中转移到机器上。最适合数据编排的自动化依赖于机器学习。


·DataOps 

DataOps(Data Operations)是一种面向流程的自动化方法,以提高数据质量并缩短数据分析的周期时间,它不是一个工具或产品,而是一种方法论或者最佳实践,类似软件开发中的“敏捷方法”。DataOps通过将敏捷开发、DevOps、人员和数据管理技术相结合,构建数据研发运营一体化的数据开发新范式,提高人们使用数据的效率并降低使用数据的门槛,并且充分利用数据的价值[8]。


·数据虚拟化访问

数据虚拟化访问技术是现代数据管理中的一项变革性技术,特别适用于需要快速访问和分析各种数据类型和来源的场景。与传统的数据集成方法不同,后者通常需要物理地将数据整合到一个位置,数据虚拟化涉及创建统一的、按需的数据访问,无需物理移动或复制数据。数据虚拟化从使用数据的应用程序中抽象出存储数据的技术细节,如格式、位置和访问协议。这一层允许用户操作数据而无需了解其底层的具体信息。它能够实时或近乎实时地集成来自多个异构源的数据,包括数据库、大数据结构、云服务和 APIs,而无需复制实际数据。通过集中数据访问层,数据虚拟化为所有数据查询提供了一个单一访问点,无论数据的物理位置在哪里[9],从而简化了数据架构和治理。通过解耦数据与底层存储系统,增强了敏捷性。存储或数据格式的变更不会影响应用程序的业务逻辑。


面向6G的数据编织框架




(一) 面向6G的数据编织框架


面向6G通信系统的数据编织框架将专注于实现高度动态、实时且分布式的数据管理和分析,以支持6G通信系统的特点,如极高的数据传输速率、低延迟和海量连接。未来的数据编织框架应具备如下关键能力:


·边缘数据智能:利用数据智能与自动化集成,在6G环境中的边缘计算节点实施实时数据处理和分析,减少中心化处理的需要,从而降低延迟。


·多域数据整合:通过与主数据管理(MDM)的整合,保证在6G通信网络中跨多个域(如用户、设备、网络功能等)的数据一致性和信任度。


·动态数据连接:使用图引擎支持在高度动态的6G环境中,实时地连接和编排来自各种数据源(包括传感器、设备、服务等)的数据。


·实时数据质量保障:实现实时数据质量与转换,确保6G通信系统中的数据传输和处理的准确性和效率。


·事务性数据管理:在全球分布的6G网络中,通过全球事务管理模块保障数据一致性和事务的原子性。


·跨域数据产品开发:促进跨领域的数据产品开发,支持6G通信系统中的新业务模型和服务创新。


此外,这一框架需要考虑6G通信的安全性和隐私保护要求,实施先进的数据加密、访问控制和隐私保护技术,确保数据的安全传输和处理。


面向6G通信系统的数据编织框架

详细分层框架包括:

·基础设施层(Infrastructure Layer)


网络连接:包括高速、低延迟的6G无线连接和有线网络,以及边缘计算的实现。

资源虚拟化与动态调度:使用云计算资源和边缘计算节点,实现资源的即时调度和优化。

网络功能与服务虚拟化:利用SDN和NFV技术,提供高度灵活和可配置的网络服务。


·数据管理层(Data Management Layer)


数据采集与整合:汇总多样化的数据源,包括IoT设备、用户设备、网络日志等。

数据存储与优化:构建高效的数据存储解决方案,保障数据高可用性和一致性。

数据安全性与治理:确保数据的安全传输和存储,包括加密、访问控制和数据合规性。


·服务层(Service Layer)


智能数据处理:运用AI和机器学习进行数据分析,预测和模式识别,实现智能化决策。

实时数据服务:基于实时数据流提供分析服务,确保即时反馈和响应。

资源管理与优化:自适应资源管理算法,动态调配计算、存储和网络资源,提升能效。


·应用层(Application Layer)


高级数据应用:利用高速率的数据流,支持如AR、VR、自动驾驶等高级应用场景。

用户体验与交互:提供友好的用户界面和交互设计,增强用户体验和服务可接受性。

创新服务开发:开发和部署支持6G特性的新服务,推动技术创新和业务发展。


在此框架中,每一层都密切关联,相互支撑,共同构成一个可靠、灵活、智能的6G数据编织系统。从基础设施到数据管理,再到服务层,每一步都注重提高效率、增强安全和改善用户体验。最终在应用层,框架将能够满足未来的商业需求和创新应用,实现6G环境下的全新体验。


(二) 关键功能与组件


该框架各层关键功能与组件包括:


·智能元数据引擎(Intelligent Metadata Engine)

利用主动元数据辅助自动化,通过元数据分析和建议充当智能编排引擎,促进数据在不同部署选项、用例和架构方法之间的快速访问和共享。   


·生成式AI工作台(Generative AI Workbench)

使用组织自己的数据训练生成式AI模型,提供全面的数据见解,加强客户关系管理和决策支持,尤其在金融服务领域


·实时数据分析平台(Real-time Data Analytics Platform)

实时分析大量数据,识别可疑数据并采取风险减缓措施,维护应用的稳定性和安全性。  


·客户体验增强器(Customer Experience Enhancer)

通过自动化流程和数据编织技术,简化客户交互、减少错误并提供个性化服务,提高客户满意度和忠诚度。   


·私有AI平台(Private AI Platform)

确保AI获得高质量的数据,支持AI和人类共同做出重要决策,优先考虑数据质量和流程优化。   


·语义知识图谱构建器(Semantic Knowledge Graph Builder)

组织和管理知识,通过图形结构表示实体之间的语义关系,提供全面的数据地图,帮助用户理解数据的含义、来源和使用方式。   


·数据编排中心(Data Orchestration Hub)

将多个存储位置中孤立的数据组合起来并呈现给数据分析工具,涉及组织、转换及激活数据的三个主要步骤。   


·数据准备与交付(Data Preparation and Data Delivery)

“Data Orchestration Hub”中心依据“Intelligent Metadata Engine”进行数据编排,通过“Data Preparation and Data Delivery”“Data Virtualization Gateway”完成数据整合和访问。


·数据虚拟化网关(Data Virtualization Gateway)

支持物理分散、逻辑统一的数据访问方式,在多云或混合云情况下统一连接和访问数据。   


通过这些组成部分的紧密协作,数据编织系统框架能够实现数据的高效管理、自动化处理和智能化分析,同时确保数据的安全性和合规性,为金融机构等组织提供强大的数据支持。


(三) 面临的挑战与风险


在实现面向6G通信系统的数据编织框架时,会遇到一系列技术、企业数据现状、落地执行以及企业文化方面的挑战与风险。


1.技术本身的挑战与风险

·数据整合与管理:需要有能力整合来自不同源(如传感器、社交媒体、智能设备)的数据,这不仅涉及到技术问题,还有数据格式和标准化的问题。

·安全性与合规性:保护敏感数据以满足越来越严格的法规要求,需要在保持数据易用性的同时,实施先进的加密和数据掩盖技术。

·实时数据处理:由于6G环境下数据的高速生成,需要实施可以即时响应的数据处理和分析能力。


2.企业数据现状的挑战


·数据分散性:由于企业数据跨多个仓库和云服务分布,如何确保数据一致性和准确性是一大挑战。

·数据重复和一致性问题:分布式存储导致数据冗余,确保全局一致性是关键。


3.落地困难的挑战


·技术选型和集成:选取合适的技术和工具来构建数据编织架构,确保它们可以无缝集成并协同工作。

·技能和知识缺乏:构建和维护数据编织框架需要专业知识,这可能需要对现有员工进行培训或招募具有这些专门技能的新员工。

·文化转变困难:组织需要从以应用程序或存储为中心转变为以数据为中心的运营模式,这需要大幅调整现有流程和观念。


4.企业文化的挑战


·新技术的抗拒:员工和管理层可能会对放弃久经考验的技术和流程感到不适,对新技术持保守态度。

·组织惯例与阻力:企业内部的既有惯例和文化可能会阻碍数据编织的采用和推广。

·数据所有权和治理:数据编织需要跨部门协作和数据共享,这要求改变现有的数据所有权和治理结构。


综上所述,在面对6G时代的数据编织挑战时,需要系统地解决技术难题,同时对数据管理策略进行重新思考,克服落地困难,并促进组织文化的转型,以便完全利用6G带来的机遇。


总结与展望

本文深入探讨了面向多维融合的数据编织技术6G通信系统的背景下演进深入分析了6G系统的数据诉求、数据编织技术的现状与挑战、技术演进方向、以及关键的数据编织框架与功能。


6G通信系统的到来预示着一个全新的数据密集型时代。随着网络的演进,数据的规模、种类和处理需求将呈指数级增长。在这个背景下,数据编织技术成为了实现数据高效管理和利用的关键。数据编织不仅能够整合和融合多维度数据,还能够提供实时、动态和智能化的数据服务,满足6G系统对于数据处理的严苛要求。


本文分析了数据编织技术的现状,包括其定义、应用价值和技术挑战。数据编织通过自动化的数据集成、整合和治理,支持跨云环境下的便捷交付部署。它的核心价值在于打破数据孤岛,最大化释放数据价值,并支持数据驱动的决策和创新。


在技术演进方向上,指出了6G对数据编织提出的多维度挑战,包括数据融合、检索性能、有效性和数据主权等。这些挑战要求数据编织技术必须不断发展和创新,以适应6G通信系统的特点和需求。


另外,详细介绍了面向6G的数据编织框架与功能,包括智能元数据引擎、生成式AI工作台、实时数据分析平台等关键组件。这些组件共同构成了一个可靠、灵活、智能的6G数据编织系统,能够实现数据的高效管理、自动化处理和智能化分析。


展望未来,数据编织技术将继续沿着以下几个方向发展:


·智能化与自动化:随着人工智能和机器学习技术的不断进步,数据编织将更加智能化和自动化。通过深度学习和模式识别,数据编织系统将能够自动发现数据间的关联,提供更加精准的数据推荐和治理策略。


·多维度数据融合:6G时代的数据将更加多样化和复杂。数据编织技术需要进一步发展,以支持不同类型、格式和来源的数据融合,实现数据的无缝整合和协同。


·实时数据处理:为了满足6G通信系统的实时性要求,数据编织技术将发展出更高效的数据处理能力。这包括实时数据摄取、流处理和即席查询等能力,以支持实时决策和响应。


·安全性与合规性:随着数据安全和隐私保护法规的日益严格,数据编织技术将加强数据的安全保护和合规性管理。这涉及到数据加密、访问控制、数据脱敏和审计等方面。


·跨域数据协作:6G通信系统将实现全球无缝覆盖,数据编织技术需要支持跨地域、跨网络和跨平台的数据协作。这要求数据编织技术具备更强的互操作性和标准化能力。


·数据主权与治理:数据主权将成为6G时代的重要议题。数据编织技术将需要提供更加灵活和细致的数据治理功能,以适应不同国家和地区的法律要求,同时保护数据主权和用户隐私。


·开放与标准化:为了促进数据编织技术的广泛应用和创新,未来的数据编织平台将趋向于更加开放和标准化。这包括开放API、标准化的数据模型和协议,以及与现有技术和生态系统的兼容性。


总之,数据编织技术在6G时代将迎来新的发展机遇和挑战。通过不断的技术创新和合作,未来有望构建一个更加智能、高效和安全的数据处理和分析环境,为人类社会的发展贡献更大的价值。

参考资料

[1]宋雅琴,徐晖,刘险峰,.面向6G星地融合的云边协同网络架构和关键技术[J].天地一体化信息网络,2023,4(03):3-11.
[2]You, X., Wang, C., et al. (2021). Towards 6G wireless communication networks: vision, enabling technologies, and new paradigm shifts. Sci China Inf Sci, 64(1): 1-74.
[3]中国移动研究院. 2030+愿景与需求报告[S]. 2019.
[4] 中国信息通信研究院大数据产业发展观察, 2023.07.21.
[5]齐艳平.大数据时代数据编织方法及其对数据治理影响初探[J].中国国情国力,2022,(01):69-73.
[6] IBM. Data Fabric 架构的三大即时优势,2023.
[7] Gartner.2023数据与分析十大趋势解读, 2023.
[8]中国信息通信研究院. DataOps实践指南(1.0) , 2023.04.20.
[9]里克 F.范德兰斯(Rick F.van der Lans.数据虚拟化(商务智能系统的数据架构与管理)机械工业出版社, 2017.

亚信科技新技术探索
亚信科技的ICT前沿技术观点与行业洞见。展现亚信新技术与产品行业实践成果。
 最新文章