大数据产业创新服务媒体
——聚焦数据 · 改变商业
为进一步发挥公共数据的内在价值,利用公共数据赋能行业发展,需要探索具有长沙特色的公共授权运营体系与模式,从顶层设计出发建设公共数据授权运营平台,以满足公共数据授权运营在“供得出、流得动、用得好、保安全、促发展”等多方面的需求,提升公共数据授权运营水平,充分发挥公共数据要素价值,促进公共数据开发利用生态的繁荣与可持续发展。
1、提升数据供给动力的需求
公共数据的供给缺乏动能,受制于确权、运营等机制的不健全,在公共数据供给方面存在“不敢开放”“质量不佳”“需要的数据拿不到”等问题,需要采取措施提高数据开放程度,加强数据整合和质量控制,确保数据的可用性和可靠性。同时,数据要素流通时可能存在数据安全和隐私保护等问题,在推进公共数据的开放运营时缺乏评估机制与激励机制,数据供给后没有明确的收益分配机制,这些都导致了数源部门缺乏数据开放共享的动力,亟需完备的管理机制与平台技术促进公共数据供给。
2、促进数据流通的需求
数据被列为生产要素以来,数据要素领域就具有鲜明的政策导向。诸多政策、管理办法的出台也不断驱动公共授权运营的发展,但国家尚未出台统一的数据运营流通机制,各地均在不断探索可落地可顺利推动的实践路径。亟须建立起全面综合、系统性的管理体制机制,设计规划出明确的商业模式,并建立起涵盖全业务流程的平台,来共同支撑数据要素的流通以及公共数据的应用。
3、挖掘数据价值的需求
数据产品应用场景丰富,在交通管理、生态环保、经济金融等方向,均有公共数据的需求,公共数据应用空间巨大,但由于缺乏便捷的数据获取路径与使用准入机制,导致仅有少量的头部企业可以参与到公共数据的使用和开发中,使公共数据蕴含的价值难以被充分挖掘。需要降低企业的参与门槛,让更多拥有前沿技术、创新能力的主体参与到公共数据的价值挖掘中,加强公共数据的深度开发,进一步拓展公共数据的应用领域和深度,发挥公共数据的乘数作用。
4、保障数据安全的需求
数据泄露问题屡见不鲜,而公共数据中涉及了大量的企业以及个人敏感信息,在数据流通过程中需要确保这些敏感信息不被泄露、篡改或滥用。一方面需要采取严格的访问控制、数据加密、脱敏处理等技术手段,另一方面需要建立完备的安全保障机制与制度,确保数据的安全性。同时,公共数据在应用过程中,还涉及多主体参与、跨网跨域流通等,这些均对数据的安全性提出了更高的要求,需要依托完备的机制体系以及技术平台进行保障。
5、赋能数据主体发展的需求
建设公共数据授权运营平台,为公共数据市场中的多方关联主体提供了发展动力。在政府侧,能够将原有的沉淀在系统中的公共数据进行价值挖掘,为数据产业的发展提供支撑,并在一定程度上通过公共数据的流通应用补充财政资金,缓解财政压力;在企业侧,需要利用平台提供数据要素相关服务,探索可行的商业模式,形成稳定资金收入,促进企业发展;对于其他市场参与主体,需要利用公共数据授权运营平台提供的能力,挖掘数据价值,为自身的生产经营提供更多的动力。
6、有效服务民生的需求
公共数据涉及民众生产生活的方方面面,取之于民,更将用之于民。基于公共数据授权运营平台的建设,利用其提供的数据管理、产品开发、资产价值化等多方面的能力,结合授权运营场景,将公共数据与社会数据、企业数据等进行充分融合,发现关联关系,挖掘数据的内在价值,一方面在政府侧为政府提供政务服务发挥作用,另外在企业侧,支撑公共数据授权运营场景在服务民生方面发挥作用。
数据管理建设是一个大型的复杂的系统工程,部门多,业务广、系统多、数据多,各部门具有运行与管理的独立性,同时又是一个相互联系、相互制约的整体。数据治理以业务导向、模型驱动的模式,通过部门一级治理和综合二级治理的分级治理模式,保障业务和数据一致性,促进公共数据高质量供给;数据产品开发以场景驱动,分级开发的模式,一级开发以授权运营主体和数据产品需求为对象,结合市级部门数仓建设,开展数据一级开发,提升数据供给质量,丰富数据基础数据能力、基础数据产品和通用模型,促进数据多场景应用、多主体复用,实现数据普惠性,繁荣数据二级开发市场。二级开发围绕终端应用场景,联合行业合作伙伴,建设行业专题库,打造行业数据服务、行业数据产品、行业数据模型和行业数据解决方案等金融行业服务能力。
一、平台建设
以“释放数据要素价值”为导向,通过“数字化、产品化、价值化”路径,实现数实融合,在实际场景中实现数据价值。一是数字化环节,通过物理空间的业务数字化转型,完成业务的数据化;二是产品化环节,以场景应用为驱动,通过数据的汇聚、治理加工、数据产品开发,实现数据产品化。三是价值化环节,一方面,通过数据场景应用,打造数字金融、数字人才、数字文旅等场景运营矩阵;另一方面,通过数据资产化,实现数据的增信、质押等数据的金融授信。
授权运营平台是本市公共数据授权运营的统一通道,支持数据供需对接、加工处理、典型案例推广、运营政策宣传和政务数据社会化应用;为公共数据运营提供基础环境,具备流程管理、安全脱敏、访问控制、算法建模、监管溯源接口生成、封存销毁、全程审计、授权管理、过程追溯等功能。具体实施如下:
1、总体架构
授权运营平台整体定位为长沙市公共数据运营“总枢纽”。在市数据局支持和指导下,遵循安全合规、有序开放原则,按照“原始数据不出域、数据可用不可见”的要求,基于市数据中台,为授权运营主体提供授权运营场景的数据加工处理工具和环境,打造公共数据产品应用市场,实现公共数据运营全生命周期安全监管,确保全流程操作可审计、数据可溯源。
网络层:基于当前长沙市的政务数据域,针对不同行业领域的需求,开辟授权运营域,满足授权运营主体利用公共数据和自有数据开发数据产品的需要。
支撑层:引入隐私计算、区块链等先进技术,建立数据安全屏障。利用隐私计算技术保护数据隐私安全,防止泄露滥用。利用区块链技术实现数据交易全流程可追溯、可监管。复用长沙市统一认证、数据资源管理平台等能力,减少重复建设、提高资源利用率,为平台规范化运营提供有力保障。
功能层:主要包括授权运营主体管理、场景管理、资源管理、产品管理、计价计费、考核评估、安全监管、信息主体授权管理。
应用层:多领域授权运营场景入驻平台。平台已入驻涵盖金融服务、商贸流通、医疗健康、智慧城市等多个领域的运营场景,全方位覆盖并深化各领域服务效能与应用体验。
2、制度体系
构建公共数据运营规范体系,筑牢数据要素市场健康发展基石。以《长沙市政务数据运营暂行管理办法》为引领,以平台业务为核心,开展长沙市公共数据授权运营规范体系建设,实现业务流程标准化、监管在线化、授权运营合规化等要求,具体包括数据安全合规、资产管理、研发管理及运营服务共4类60多项数据基础制度,确保数据运营全流程机制完善。
图3 长沙市公共数据授权运营规范体系
3、数据开发利用框架
一是创新构建信息资源目录和数据资源目录的“双目录”体系,通过部门一级治理和综合二级治理的分级治理模式,保障业务和数据一致性,促进公共数据高质量供给;
二是基于“政务云+公有云”双云部署,通过“政务数据区”“授权运营区”“互联网区”的三区划分设计,创新数据一级开发和二级开发的数据产品高效开发模式,构建了一个“可用不可见、加工不出域”的安全流通环境,保障公共数据高效流通利用;
三是打造“信息主体主动授权+产品应用授权”双授权机制,保障个人、企业数据隐私安全和数据合规使用。
图4 数据开发利用框架
4、关键技术
长沙市公共数据授权运营平台关键技术主要包含下述几个方面:
1)AES、访问控制策略和身份验证和授权机制
数据安全和隐私保护是数据平台的核心组成部分,包括实施强大的加密措施,如使用高级加密标准(AES)来保护数据存储和传输的安全。AES是一种广泛使用的对称加密算法,提供了强大的安全性,可以有效防止数据被未经授权的用户访问。访问控制策略确保只有授权用户才能访问敏感数据,而身份验证和授权机制如OAuth和SAML则用于验证用户身份并授予适当的访问权限。OAuth是一种开放标准,允许用户授权第三方应用访问其存储在另一方的信息,而无需分享凭据。SAML则是一种基于XML的标准,用于交换认证和授权数据。
2)云服务与大数据技术
云服务提供了一种灵活、可扩展的方式来存储、处理和分析大量数据。云提供包括计算实例、存储解决方案和大数据处理工具。例如,计算实例可以提供弹性的计算能力,存储解决方案可以提供多种类型的存储选项,如对象存储、块存储和文件存储,而大数据处理工具则可以处理和分析大规模的数据集。大数据技术如Apache Hadoop和Apache Spark支持对大规模数据集进行分布式处理。Hadoop提供了一种可扩展的分布式文件系统和一个用于数据处理的框架,而Spark则提供了一种快速的大数据处理平台,支持批处理、流处理和机器学习等多种计算模式。
3)人工智能与机器学习
人工智能(AI)和机器学习(ML)技术使平台能够从数据中学习并自动化决策过程。这些技术使用算法来发现数据中的模式和洞见,支持预测分析和智能自动化。例如,监督学习算法可以从带标签的训练数据中学习,然后应用到新的数据上进行预测,而无监督学习算法则可以发现数据中的隐藏结构或模式。流行的机器学习库如scikit-learn、TensorFlow和PyTorch提供了工具和框架来构建和训练复杂的算法模型。例如,scikit-learn提供了一系列的预处理、分类、回归、聚类和降维算法,TensorFlow和PyTorch则提供了一种灵活的方式来定义和训练深度学习模型。
二、场景建设
1、数据采集
2、数据仓库建设
数据通过标准的数据治理过程形成标准数据仓库,主要涉及业务梳理、数据梳理、标准梳理、数据整改、数据标准化、数据融合。
1)业务梳理:面向部门业务场景,根据主干业务,梳理业务事项、业务关系和业务角色的业务三要素,包括业务定义、业务的分级分类、业务主题、安全等级、业务标准、业务流程、业务参与者等,形成信息资源目录,理清业务的“人、事、地、物、组织”,构建业务模型;
2)数据梳理:面向业务和应用,梳理业务信息、管理信息和技术信息三类属性,包括数据表、字段、各业务表关联关系、分级分类、业务标准、生产系统等,形成数据资源目录;
3)标准梳理:根据业务的数据标准(国家、行业或地方标准),梳理基础数据元清单、码值字典、规则清单等,形成标准元模型,作为后续数据标准化和质量检测的依据;
4)数据整改:根据数据梳理成果,通用质量检测,开展源头数据整改,保障数据的基本结构质量,形成数据贴源库;
5)数据标准化:基于标准元模型,对贴源库数据进行标准检测和加工,通过质量分析和整改,形成标准库;
6)数据融合:基于标准库,开展多元校核,进行跨域数据融合治理;对业务基础指标和维度进行提炼和融合,依场景、按分析和应用需求,构建基础库和主专题库。目前数据仓库主要包括市医保局、市人社局、市市场监督管理局、市公积金中心、市住建局等66个单位的医保、工商、公积金、房屋等核心数据。
3、数据产品开发
数据产品开发根据场景驱动,分级开发原则。
1)一级开发:以授权运营主体和数据产品需求为对象,结合市级部门数仓建设,开展数据一级开发,提升数据供给质量,丰富数据基础数据能力、基础数据产品和通用模型,促进数据多场景应用、多主体复用,实现数据普惠性,繁荣数据二级开发市场(包括构建个人、企业、资产等维度基础数据、指标和标签,构建个人画像、企业画像和资产画像的基础数据能力、建设标准的数据核验类、数据模型类等通用数据产品)。
2)二级开发:围绕终端应用场景,联合行业合作伙伴,建设行业专题库,打造行业数据服务、行业数据产品、行业数据模型和行业数据解决方案等行业服务能力。
具体数据开发实施过程包括:
1)需求分析:分析业务场景需求,识别关键业务指标,依托脱敏环境,严格遵循数据安全与合规的原则,探查分析数据内容、业务属性、结构、来源、质量等信息,梳理场景的业务需求清单和数据需求清单;
2)模型设计:根据整体数据仓库架构,开展数据架构设计,明确数据分层、数据流等。根据业务需求分析结果,开展业务逻辑设计,包括业务指标、业务标签等设计。根据业务逻辑模型,开展数据模型设计,明确各层物理数据模型和数据映射关系;根据业务逻辑设计调度任务;
3)数据开发:根据模型设计,在开发环境进行业务建模、逻辑建模和物理建模,开展数据清洗、数据转化、数据提取、数据计算等环节形成对应的标准库,根据业务需求,采用逻辑回归、决策树、二分类等算法模型,建设对应的专题库。最后将在开发环境完成的脚本,迁移至生产环境部署,并开发相应的接口服务,形成最终的数据产品;
4)数据发布:数据产品通过合规审查后,上架数据产品超市,对外提供服务。
4、场景成果案例
预筛模型:通过决策引擎制定预筛规则,使用分类模型的评估方法,将明显不符合和存在负面信息的客群排除,结合企业经营规模和盈利情况等挖掘潜在客户,形成的预筛模型评分报告,为银行或金融机构提供客群预筛。
企业第二还款模型:企业第二还款模型是金融机构为了保障信贷业务健康发展和降低风险而设立的一种重要评估机制。通过对企业信用状况的详细分析,确保只有具备足够还款能力和良好信用的企业才能获得贷款。根据长沙市的金融数据情况,从企业资产、法人基本情况、企业经营信息及失信企业名单等方面入手,分析企业和其法人的不动产信息以及企业工商、纳税和负面信息,从而对企业贷款资质进行综合评判,为银行或金融机构提供贷前准入风险分析信息,帮助银行等客户筛选优质企业用户。
企业监测预警模型:针对贷款发放后的不同阶段进行风险识别、评估和管理。贷中阶段是指贷款发放后,至贷款结清前的期间。在这一阶段,风险管控模型主要关注客户的偿还能力、欺诈风险以及资产质量的监测。贷后阶段是指贷款结清前的阶段,此阶段的风险管控模型主要用于评估和控制贷款发放后的风险。通过实时监控和分析贷款资产数据,及时发现潜在风险,为风险控制提供决策依据,长沙市金融专区将实时根据金融数据实时进行模型更新,做到 T+0 为周期为银行等贷款提供机构预警。一旦发现企业资质信息未能满足贷款条件或可能产生后续还款风险,模型将实时风险数据通过接口形式让银行等金融机构客户调用,满足银行风控需求。
以公共数据授权运营为引领,以数据价值闭环为目标,构建全链路数据要素服务,通过“数字星×”伙伴招募,整合数字产业上下游企业生态,招募技术型数商、服务型数商、应用型数商等数商伙伴,全面覆盖数据要素全生命周期。
现已招募入驻生态企业60余家,带动多方主体共同参与数据要素开发利用。其中,北京治数提供数据开发运营的顶层设计咨询;国泰新点软件负责公共数据授权运营平台的建设;市数字集团负责平台运营、一级数据产品开发、数据资产登记评价;湘江金科、省数产集团、长银数科、长财科技、云创征信、创智和宇、天河国云、市静交投、市规划信息中心、天湘和等授权运营主体,以及睿祺数科等数商,在金融领域、健康医疗领域、交通领域和商贸流通领域等,开展领域数据产品开发和运营;联合广东数联等开展数据资产入表,打通数据资源化、数据产品化和数据资产化全过程。