进网络安全行业群
存算分离架构:存算一体架构下,大数据数据处理产品的存储节点、计算节点功能耦合或者部署耦合,存在部署规模上限低、计算弹性扩缩困难、存算故障隔离弱等问题。存算分离的弹性计算、高规模上限、存算故障隔离等架构优势,能够提供更好的算力保障和运维灵活性,有助于应对大规模数据分析的挑战,从而提供更好的数据驱动决策的支持。
近年来,业界存算分离方面的主流产品和样板技术也日益涌现。主流产品方面有Apache Doris、阿里巴巴Hologres、腾讯TCHouse、偶数科技Hash Data等。金融行业中,建行联合HashData、金山云,推出了云原生数据库产品“龙趺”,实现了基于虚拟机部署的存算分离架构。数据中间件技术方面,开源的缓存层框架Alluxio向上对接Spark、Presto、Hive、TensorFlow等计算应用,向下对接阿里云OSS对象存储、AWSS3存储、HDFS等不同存储,可提升I/o效率 200%以上;ShardingSphere 将多类异构数据库 MySQL、PostgreSQL、Oracle、SQL Server、GaussDB等包装为统一的数据访问接口,从而方便多种编程语言直接访问多类异构数据库。
融合一体衍进:在数字化转型深入的推动下,数据类型、数据时效和应用场景的多样性要求企业搭建不同的平台和引擎来满足使用。平台方面最典型的如数据湖和数据仓库的部署使用。传统的湖+仓库混合架构存在多种问题,如数据冗余、数据一致性差、资源配置难、系统复杂等弊端,极大增加了运维的压力和成本。引擎方面聚焦在“批、流、交互计算”三种计算模型对应的诸多计算引擎,批、流、交互计算的计算形态不同,优化方向也不同,导致各个计算引擎不能形成统一,增加了数据处理的复杂度。融合一体架构成为横跨数据存储与计算领域、数据管理领域,解决上述问题的一类主流技术方向,包括批流一体技术框架、湖仓一体技术框架、混合事务分析处理技术(HTAP)。建立融合一体能力后,统一的接口层、计算层、存储层、资源调度层实现了对于海量数据的统一管理和集群服务的统一运维,大幅降低了运维综合成本。在2023年,为了统一湖仓一体框架,部分企业提出“湖仓一体”设计标准,例如 Databricks的Open、Unified、Scalable三标准(开放、统一、可伸缩),偶数科技ANCHOR标准(多数据类型、云原生、数据一致性、超高并发、一份数据、实时T+0)等,显示出业界对湖仓一体标准化发展的关注。
近年来,海外厂商 Databricks 推出 DataLakeHouse、亚马逊推出智能湖仓架构。国内阿里云推出 MaxCompute 湖仓一体方案,提供高性能数据仓库为主体、无需数据搬迁即可无缝处理和分析数据湖数据的湖仓融合的数据管理平台;华为云FusionInsight湖仓一体架构,在MRS数据湖内承载全量数据,对数据进行批量、实时加工,一个数据平台按需支持批处理、流计算、交互查询和机器学习场景;其它如巨杉数据库SequoiaDB、网易数帆船 EasyLake、柏睿数据 Rapids Lakehouse 等产品。
2 数据管理领域
数据研发运营一体化:随着数据应用场景日益丰富带来数据分析需求快速变化,数据工程师、数据管理员、报表开发人员、运维工程师在内的各类数据管理角色增多,各类数据交付任务难度大大增加。数据研发运营一体化技术(DataOps),是数据开发的新范式。它将敏捷和精益等现代软件开发理念引入数据开发过程中,旨在提高数据产品的交付效率和质量。通过将数据质量达标率、数据标准落标率、数据架构符合度、数据安全满足度等指标作为数据设计、开发和测试的要求,优化数据生产者和数据消费者协作效率,并通过标准化大数据组件,构建了一个一体化平台打通数据设计、开发、测试和运维各环节,实现编写代码、生产部署、调度监控全过程线上化,引入可视化编排、CI/CD等技术降低数据研发技术门槛,推动数据研发敏捷性,提高数据运维质量。
近年来,DataOps已从一个模糊的概念成功演化为具体的实践,得到了中国信通院等机构的积极推动。阿里云 DataWorks、华为云ROMADataOps、腾讯云DataFactory等相关产品和平台的兴起,市场趋于繁荣。
3 数据应⽤领域
智能增强分析:数据应用利用数据对各项事务进行探索、分析、洞察并最终推动决策,实现数据价值的释放。数据应用早已存在于人类社会的各项活动中,但随着数据本身形态、数据处理技术、数据应用需求等的不断演化升级。数据分析方法也在此过程中不断丰富,从早期的利用Excel等工具进行小规模分析,发展到了通过BI图表可视化分析展现技术的走向成熟,再到 Bl+Al 模式的各种探索。智能增强分析技术(AugmentedAnalytics)代表了当前数据分析的智能化升级方向。这种技术通过机器学习、自然语言处理等技术,提高数据分析流程中的自动化程度,实数分析工作更加高效和准确。尤其是在AIGC(人工智能生成内容)技术的推动下,智能增强分析得到了广泛的关注和应用,通过实现开发侧的模型敏捷开发、数据智能分析、资源统一管理,以及上层业务侧的数据快速查询分析和总结,创建一个“所思即所得”的交互分析过程。数据经纬(DataFabric)为智能化的数据分析提供强力的智能数据管理支撑。其基于主动元数据、增强数据目录、数据虚拟化等技术,将庞杂的数据处理系统群之中复杂的数据关系、数据权属等问题统一建模,形成一套分布式、自动化、智能化的数据管理形式。
近年来,很多业界公司都推出了自己的智能增强型数据分析工具,如微软Power BI Copilot、百度GBI、观远BICopilot等,公有云服务有Microsoft Fabric、Amazon QuickSight。这些工具使得数据分析可以通过对话的形式轻松完成,大大降低了数据分析的门槛,使更多的一线人员能够利用数据进行决策。
4 数据安全领域
内生安全技术:数据安全问题随着数智化加深而产生,内生安全正成为传统安全防护技术的重要补充。频发的数据泄露、网络攻击事件,使得全密态执行环境、敏感数据自动识别、高效数据加解密、细粒度的权限控制、零信任等内生安全技术的应用不断增加,与传统网络安全防护相辅相成。根据IDC发布的《IDC TechScape:中国数据安全发展路线图,2022》,零信任之数据安全、AI赋能数据安全、数据风险管理,数据安全基础设施管理平台这些变革性数据安全技术将重塑数据安全市场。
近年来,华为云、阿里云相继推出全密态数据库,数据在用户侧(客户端)加密后,在非受信的服务器端全程只以密文形式存在,当数据需要被处理时,客户端通过远程证明确认服务端运行在受信环境、且其内运行的代码可信后,将秘钥端到端直接传入受信环境,数据和秘钥仅在受信环境里被处理,外部无法进入窃取数据,达到对所有的数据库事务、查询、分析等操作的支持。另外,阿里云Dataworks加入敏感数据识别能力,亚马逊RDS增加内置防火墙,这些增强措施进一步提升了数据的安全性和隐私保护能力。
在用户需求、技术发展和政策扶持和推动下,大数据产业呈现出快速增长和多元化发展,包括大数据云原生化、数字技术外贸化、数据要素资产化、人机直接交互分析、行业场景融合化、运维治理智能化6个方面趋势。
1 数据存储与计算领域
大数据云原生化:大数据云原生朝着云原生数据库发展。云原生数据库并不是将分布式数据库未经改造简单地迁移到云上,其以云化运行环境为前提,在设计上通常结合分布式技术并普遍采用存算分离、日志即数据的设计思想,能够灵活调动细粒度的“计算和存储资源”进行扩缩容,实现资源池化、弹性计算、集约运维等能力,以应对更便捷、更低门槛实现云上数字化转型与升级的挑战。例如AP+TP业务的混合处理、弹性+智能的成本控制。随着云原生数据库的普及和发展,其正朝向更高可用性、更强的处理能力、更智能化以及更普惠的方向发展:一是多级高可用,通过多副本、跨可用区、跨地域、跨国域等级别高可用,实现多可用区热活高可用、单个实例跨可用区部署。二是多级HTAP,基于算法协同,内存计算、存储优化、并行处理等技术兼容解决不同规模数据查询加速需求,包括如使用内存池技术与AP+TP业务结合,减少网络通信开销、提高数据一致性和实现资源共享。三是智能弹性,在Serverless服务器计算基础上,根据历史负载数据,自动计算用户画像,快速预测未来负载曲线,预先为弹性伸缩准备资源。
数字技术外贸化:我国大数据产业经过多年发展,在存储与计算等部分技术领域的供给能力已经达到国际一流水平。当前,东南亚为代表的新兴经济市场规模正在快速增长,我国数据存储与计算领域的部分企业已开始走向海外市场,阿里巴巴、腾讯等企业已经开始借助自身全球云计算网络基础,PingCAP、OceanBase等企业借助开源优势,助力其数据库、大数据产品突破日本、印尼等海外市场。
2 数据管理领域
数据要素资产化:2024 年全国两会报告为我们描述了数据要素改革的5个重点事项:数据基础制度、数字基础设施、“数据要素乘”、公共数据授权和价格机制、数据跨境流动。2024年4月1日,国家数据局召开首次全国数据工作会议。对于新质生产力之前用的最多描述是“加快形成”,然而这次会议有一种明显的转变和强调,那就是要“大力发展”新质生产力。数据要素从资源到资产的转化是释放数据潜在价值的关键步骤,标志着经济社会数字化向更深层次发展。尽管数据目前被广泛认为具有价值,但其资产特性并未完全显现。只有当数据被确权、流通和交易,它才会从一种资源转化为可量化的数字资产。国家在数据改革方面的探索,如数据授权、交易、资产登记和入表,都是这一资产化进程的重要组成部分。而围绕数据要素这种新的“数据基础设施”打造“新质生产力”,将成为每家拥有数据资产的企业战略资源的重要组成部分。
3 数据应⽤领域
人机直接交互分析:在数据分析领域,SQL以声明式编程语言天然的易用性和普适性最终保持了主流编程语言的地位,Spark/Flink等计算框架最终都增加了sQL接口,新一代数据平台Clickhouse/Snowflake等仅支持sQL。但随着大模型/AGl发展,编程开始走到辅助编程(Copilot)阶段,最终会发展到全自动代码生成的阶段。编程接口最终不再面向人而是面向模型和引擎,这种情况下sQL的劣势开始逐渐显露出来,例如SQL编程自解释能力不足,需要依赖更多外部模块(比如元数据系统),表达能力受限等等。同样的RAG+Prompt能力,大模型生成的Python代码质量高于sQL。Databricks在2023年推出English SDK for Spark 的能力,得益于Spark广泛可获取的资料,在不需要额外RAG和Prompt的情况下,直连ChatGPT4即可获得不错的编程效果。交互分析模式带来的概念和能力将启发业界发起一轮数据分析方式的改革。
行业场景融合化:随着数字化转型深入推进,各个领域对于大数据技术和解决方案的需求将进一步扩大和深化。尤其是在医疗健康、教育培训、交通物流等领域,基于大数据分析与挖掘的智能决策支持系统将发挥重要作用。同时,在消费娱乐、社交通讯等领域,基于大数据个性化推荐与营销系统也将带来更好的用户体验。借助数据流通数据可以在不同的数据接受者一方与自由数据汇聚,不断开拓使用维度,数据价值也将在社会面层层放大。倚靠数据交易市场日益完善,不同行业之间的数据共享和融合将为大数据应用带来更多的创新和发展机遇,数据跨界合作将成为行业发展的重要趋势之一。例如,金融科技、智慧医疗、智能制造等领域将通过大数据纽带实现深度融合,共同推动大数据应用场景的拓展。大数据市场的市场格局将更加复杂,企业需要加强与其他行业的合作和融合,激荡出更多数据价值,提升服务,以拓展市场空间。
4 数据安全领域
运维治理智能化:面对大规模数据和不同的应用场景,传统数据库组件存在业务类型不敏感、查询优化能力弱等问题。目前有研究通过将机器学习算法替代传统数据库组件的方式以实现更高的查询和存储效率并自动化处理各种任务,例如自动管理计算与存储资源、自动防范恶意访问与攻击、主动实现数据库智能调优等。机器学习算法可以分析大量数据记录,标记异常值和异常模式,帮助企业提高安全性,防范入侵者破坏,还可以在系统运行时自动、连续、无人工干预地执行修补、调优、备份和升级操作,尽可能减少人为错误或恶意行为,确保数据库高效运行、安全无失。智能处理模型将成为数据应用优化的重要里程碑。随着AIGC的进一步演化,通过构建针对数据发现、查询调优、攻击防范、故障分析等各细分领域的“大模型”,AIGC将促进专业知识和经验被准确地转换为机器可理解、可执行的数字信息,逐步替代人工处理,大幅度地降低运营成本和提高生产效率。工商银行大数据技术及应用白皮书(2024)
资料列表会员 可获取
成为资料列表会员,公众号回复 下载
| 来源:中国⼯商银⾏软件开发中⼼