武汉大学教授蔡恒进:数据釜——“用时可见,用后即焚”

科技   2024-09-19 11:16   湖北  


中国《“十四五”数字经济发展规划》明确了要“以数据为关键要素,以数字技术与实体经济深度融合为主线,加强数字基础设施建设,完善数字经济治理体系”。2021年9月,《数据安全法》出台,明确指出“坚持以数据开发利用和产业发展促进数据安全,同时也要以数据安全保障数据开发利用和产业发展。”


《2022年广东省数字经济工作要点》明确支持促进数据交易流通。依托现有交易场所建设省数据交易场所,支持建设深圳市数据交易所,建立健全数据权益、交易流通、跨境传输和安全保护等基础性制度规范。推动数据经纪人试点,规范开展数据要素市场流通中介服务,探索建立数据经纪人管理制度。


随着互联网经济的升级和发展加速,政府、企业等终端用户正在广泛开展数字化转型,完善数据全生命周期管理,运用大数据和分析解决方案提升管理决策水平、改善内外部用户体验、支持创新应用,中国数据交易市场将继续增长。在数字经济时代,要充分发挥数据资产的价值,需要在技术机制层面继续创新,促进个人数据的安全、可信、可用、可流转,激发数据市场自身的活力,形成并维护健康生态。


数据安全技术选型各有特点与局限,难以在安全、效率、灵活扩展之间平衡,比如系统访问控制一方面需要一种支持细粒度的可动态管理权限的访问控制技术;另一方面也需要具备一定的学习能力,从海量的数据中挖掘和学习相关知识用于提升访问控制的安全性。在数据确权与数据治理方面,主要是通过“自上而下”的机制设定,在实际应用过程中,由于个人数据应用场景的复杂性,难以形成完整、通用的机制规则来约束不同的数据权利。


隐私计算技术有可能形成“柠檬市场”。尤其在上下游、协同协作等场景下,当不提供或者不完整提供优质数据时,己方将明显得利,而其他方不容易察觉,仅通过隐私计算并不能解决数据源头可信等问题。


基于区块链的个人健康数据流转是人工智能与区块链技术结合发展的一个具体应用场景,通过协议或加密方法可控制数据的访问权限,针对大型数据的处理计算和不同机构的数据源结构不同的问题,现在研究提出的框架能在一定程度上改善处理速度和统一数据格式,但在实际应用中性能计算速度仍然达不到商业用途,让用户信任平台也是一个关键,仍存在改进的空间。


探究如何平衡个人数据流动引起的“数据安全”“数据确权”和“数据应用”之间的冲突,对推动数字经济发展具有重要意义。我们坚持从数据源头开始,进行数据隐私保护、分级、确权、追溯与应用,在保证安全的前提下促进数据应用与流转,实现数据保护与数据应用的平衡,切实推动数字经济落地与发展。


针对个人数据隐私暴露和共享应用困难的挑战,我们主张采用“数据釜”(DataStill)个人数据安全流转机制,以实现在保护个人隐私的前提下,个人数据能够在合法合规的范围内进行许可应用,更好地发挥数据作为新型生产要素的价值。



首先,数据釜包括可确权的个人数据链构建方法,通过支持多类型区块链系统底层,支持个人常用硬件设备,让个人数据链的部署应用有足够的软硬件环境,在此基础上利用通证技术对个人数据数字凭证化,以保证数据归属、使用、监督等权利明晰,同时数据根据所有者操作而自动分级,有对应的隐私保护策略,个人数据得到相应的保护。


第二,数据釜支持多链之间的交互,通过哈希值的传递,保证链之间的交互安全,使得数据得以在用户主导的情况下进行分享传播与再应用。将共识从数据本体中分离,在链与链交互的过程中,再相互理解并建立交互关系,逐渐扩展共识范围,基于节点之间的哈希交互,从局部秩序逐渐形成网络的自发性时间秩序(Spontaneous Time Order)。


第三,数据交易方无须直接接触,而是通过各自的AI代理在数据釜的安全平台上进行数据需求的撮合与验证,一个用户可以根据数据特征或需求设置多个AI代理,每个AI代理仅属于一个用户以规避代理问题,也可保护用户自身隐私。数据的需求对接、数据特征的验证在数据釜中进行,用户买方得到的是数据验证或计算后的结果,而无法得到原始数据,在满足卖方用户使用数据的需求时也能对卖方数据的隐私进行保护。


此外,我们通过可信第三方与区块链底层技术相结合,根据数据分级、确权与隐私性要求,面对复杂多样的输入数据,在不泄露隐私的条件下验证数据,提供精简的输出结果,历史交易记录为数据增加背书,有利于优质数据的多次交易,提升其附加值,从而吸引优质数据入场,抵御劣币驱逐良币的“柠檬市场”现象。


针对信任问题,数据釜从可信AI代理入手,避免传统代理机制中的代理问题,用户甚至可在自己私有的设备上进行AI代理的设置与管理,可提高AI代理的可信度和隐私性,代理要进入数据釜才能交易,相比隐私计算的“可用不可见”,数据釜则是在限定的安全范围内使用,“用时可见,用后即焚”。


结合个人健康数据场景,涉及到的技术方案如图1所示,相关参与方与对应操作可以描述为:


图1 个人健康数据实施例示意图


(1)数据生成方(检测仪器/检验机构)。传统方式形成健康检查的链下数据结果,可以是纸质、图片等形式,结果交给个人。


(2)个人健康/医疗数据的所有者。个人拿到结果后决定是否上链,比如将结果拍照、记录文字或者关联访问链接等方式,将链下数据进行上链,存储在个人设备或私有云服务上。为了鼓励用户上链他们的个人健康数据,可以提供一些奖励。这些奖励可以是数字人民币、积分、折扣或其他形式的奖励,鼓励用户共享他们的数据,同时也有助于建立可信的数字健康档案。上链的数据自动进行数字凭证化处理,根据用户设置,数据可形成不同类型的数字凭证及访问权限,用户可以授权给不同代理以不同数据、不同权限。对于用户的上链数据,通过主动哈希交互的方式,让其他节点参与数据真实性与有效性的共识。此外,通过认知权重与数据定价机制,使得平台能够具备自动筛选高质量、真实有效数据的能力。


(3)数据需求方。将所需数据特征进行描述交给数据釜中的可信代理,代理将样本数据验证的精简结果返回,供需求方判断是否进行数据交易。例如某科研机构需要10000条青光眼患者数据,对年龄段、性别等有额外要求,就可以交给数据釜中的代理节点进行需求对接。


(4)可信代理

①卖方代理:取得个人数据的授权;对不同数据进行分组、打包,提供可验证的数据描述;将数据对接到合适的买方代理,协助买方代理对数据进行验证,对数据的价格达成一致(数据定价),收益与相关数据所有者共同分享。

②买方代理:需要获得买方的购买需求以及代理授权;理解需求,在数据釜中通过卖方发布的数据描述,找到可能适合的数据标的并验证数据,与卖方代理议价;向买方反馈信息,协助完成交易。


(5)监管方。相关的官方或权威监管方,获得用户许可后可以对数据进行验证,可为数据增信。


📝专家介绍:蔡恒进 
蔡恒进,中国人工智能学会心智计算专委会副主任委员,武汉大学教授,中国移动通信联合会元宇宙产业委员会副主任委员,中国工业与应用数学学会区块链专委会委员,中国计算机学会区块链专委会执行委员,中国通信工业协会区块链专委会副主任委员。提出了主动哈希交互网络架构、意识的认知坎陷理论、智能的因果链重构理论以及太古宙孔隙生命世假说。指导学生团队在国际和国内竞赛中赢得近百奖项,包括2018年全球金融数据探索与发现大赛全球总冠军。主要著作有《机器崛起前传——自我意识与人类智慧的开端》、《区块链:链接智能未来》、《元宇宙的本质:人类未来的超级智能系统》和《类人意识与类人智能》。

来源:CAICT数据基础设施


工业互联网产业联盟湖北分联盟
工业互联网产业联盟湖北分联盟在湖北省经济和信息化厅、湖北省通信管理局、武汉市经济和信息化局、中国信息通信研究院、工业互联网产业联盟的指导下成立,为政府决策、产业发展提供智力支持,已成为湖北省重要的工业互联网产业生态载体。
 最新文章