【总编时评】数智化时代谋求新技术发展和数据安全保护平衡的若干场景

文摘   财经   2024-12-24 12:23   辽宁  


12/24 星期二

总编时评

国家信息中心 

中经网管理中心副主任、中经专网总编审--朱幼平

内容提要


最近十分抢眼的数字技术有:蛋白分子预测、AI大模型及量子计算。前两者的代表人物谷歌DeepMind的Demis Hassabis、‌多伦多大学名誉教授Geoffrey Hinton‌分别获得今年诺贝尔化学奖和物理学奖。而谷歌今年推出的Willow又是量子计算的新突破。这些新技术和新业务,对我们数据安全包括国家秘密、商业机密和个人隐私带来新的挑战。以下我们对基因数据、大模型预训练、密码学量子破解等这几个场景下,如何在保护数据权益的前提下又能促进技术与应用发展,二者如何找到平衡,谈谈看法,以抛砖引玉!




一、如何平衡基因测序数据保护与基因遗传病防治的关系

平衡基因测序数据保护与基因遗传病防治的关系,需要在保障个人隐私和数据安全的前提下,推进基因遗传病的预防和治疗。

一方面,基因测序数据涉及个人的遗传信息,具有高度的隐私性。因此,必须采取严格的保护措施,确保基因测序数据不被滥用和泄露。这包括使用匿名化和伪装化技术处理个人身份信息,采用强加密算法对数据进行加密,并建立完善的权限管理系统,以控制数据的访问和使用。同时,还需要加强数据存储和备份的安全性,防止数据的丢失和非法获取。

另一方面,基因测序在基因遗传病防治中发挥着重要作用。通过基因测序,可以获取个体的全基因组序列或部分基因序列,为后续的遗传分析提供数据支持。这有助于预测个体患某些遗传病的风险,并采取相应的干预措施。因此,在保护个人隐私的同时,需要合理利用基因测序数据,推动基因遗传病的防治工作。

为了实现这一平衡,可以采取以下措施:

1.制定相关法律法规和政策,明确基因测序数据的保护范围和责任主体,为数据的保护和利用提供法律保障。

2.加强技术研发和创新,提升基因测序数据的安全性和隐私保护水平。例如,使用全同态加密、零知识证明等先进技术,确保数据在处理、传输和存储过程中的安全性。

3.建立完善的数据共享机制,促进基因测序数据在科研和临床领域的合理应用。同时,对数据的共享和使用进行严格的监管和审查,确保数据的合法性和安全性。

4.加强公众教育和意识培训,提高个人对基因测序数据隐私保护的认识和重视程度。通过普及相关知识,引导个人合理使用基因测序服务,并保护自己的隐私和数据安全。

综上所述,平衡基因测序数据保护与基因遗传病防治的关系需要多方面的努力和措施。只有在保障个人隐私和数据安全的前提下,才能更有效地推进基因遗传病的预防和治疗工作。

以下是一些具体的基因测序数据隐私保护案例:

1.美国北圣菲铁路公司基因隐私纠纷:2001年,美国北圣菲铁路公司对雇员进行了基因缺陷检测,并根据检测结果解雇了部分对疾病较为敏感的劳动者。这一行为引发了基因隐私纠纷,美国公平就业机会委员会将该公司告上法庭,认为其违反了美国残疾人法案。此案凸显了基因测序数据在雇佣领域的隐私保护问题。

2.新西兰毛利人基因信息泄露:2006年,新西兰原住居民毛利人的基因信息被研究并披露,导致社会对其有暴力倾向的误读。这一事件表明,基因信息的泄露可能对特定族群带来负面影响,甚至引发种族安全隐患。

3.哈佛大学安徽基因研究事件:哈佛大学在未经充分告知和同意的情况下,对中国安庆地区居民进行了大规模的基因取样和研究。这一行为被指为恶性的基因掠夺,侵犯了中国民众的基因隐私权。

4.GEDmatch网站基因数据泄露:GEDmatch是一个公开的基因数据库,用户可以上传自己的基因信息以寻找生物学上的亲属。然而,该网站曾遭到黑客攻击,导致数百万用户的基因信息泄露。这一事件提醒人们,即使采取了一定的技术措施,基因测序数据的隐私保护仍面临严峻挑战。

5.以色列Myheritage公司数据泄露:2018年,以色列基因检测公司Myheritage的9230万个用户数据被发现保存在公司外某私人服务器上,虽然公司坚称没有被黑迹象,但这仍然引发了人们对基因测序数据隐私保护的担忧。



二、如何平衡大模型预训练数据与保密的关系

在平衡大模型预训练数据与保密的关系时,可遵循以下策略:

1.数据保护措施

• 数据匿名化和加密:使用差分隐私技术在数据集上添加噪声,使得攻击者即使获取数据集也无法识别出单个数据点的信息。同时,使用加密技术对数据进行处理和传输,确保数据在传输和存储过程中的安全性。

• 多方计算(MPC):允许多个参与方共同计算一个函数,而不会泄露各自输入的技术。在大模型训练中,使用MPC可以在不共享原始数据的情况下进行模型训练。

• 可信执行环境(TEE):在主处理器上隔离的安全区域,可以保护敏感数据和代码在执行过程中的机密性和完整性。将敏感数据和模型参数存储在TEE中,可以确保数据和模型的安全。

• 同态加密:允许对加密数据进行计算,其结果与对明文进行相同计算的结果相同。这意味着可以在加密的数据上直接训练模型,而无需解密。

• 数据水印和溯源技术:在模型中嵌入数据水印,用于追踪数据的使用和泄露源头。溯源技术可以帮助追踪数据的传播路径,及时发现和阻止数据泄露。

2.机密AI与模型保护

• 机密AI:目标是在模型和数据生命周期的各个阶段(包括创建、训练、传输和使用),确保它们在静态存储、传输以及使用的过程中不受到威胁。这涉及机密计算技术,如TEE,以及密钥管理、密钥代理和分发服务等。

• 模型加密与访问控制:对模型和数据进行加密,并建立严格的访问控制和审计机制,以监测和防止未经授权的访问。

3.法律与伦理规范

• 提高模型可解释性和透明度:让用户和监管机构更好地理解模型的决策过程,增强对模型可信度的评估,并有助于发现潜在的隐私和安全问题。

• 制定行业标准和伦理规范:政府和相关监管机构应推动制定行业标准和最佳实践,确保企业在开发和部署AI技术时遵守隐私和数据安全的原则。

• 加强法律监管:建立数据隐私泄露的处罚措施与赔偿机制,对违反法律法规和伦理标准的研发和使用行为进行惩罚和制裁。

4.数据管理与实践

• 确保数据合法性:在数据获取阶段,应尽力明确权益保障,确保数据获取符合法律法规规定。优先选择已知其数据使用条款且允许数据用于AI训练的数据源。

• 数据清洗与脱敏:在数据训练前,进行必要的数据清洗和脱敏操作,以去除可能的个人标识信息,减少个人信息泄露风险。

综上所述,平衡大模型预训练数据与保密的关系需要从技术、法律、伦理和实践等多个维度出发,确保数据的安全性和合规性。

以下是一个具体的大模型预训练数据保密案例:

某大模型在预训练数据保密方面采取了多项有效措施。该模型使用高质量数据进行增量预训练、微调和人工对齐等操作,同时结合多种技术手段确保数据的安全性。

1.数据防护:

• 采用关键字过滤、规则匹配、模型检测等多种技术手段,防护大模型输入提示词和输出响应内容,确保在网络安全、数据安全、内容安全、模型安全和提示安全等方面达到先进水平。

• 在大数据防护方面,为运维工程师创建安全分析模型提供有力引导。通过自然语言输入,如描述安全事件或提出创建分析检测需求,大模型能快速分析并提取关键特征和模式,这一过程中,数据得到了充分的保护。

2.系统安全防护:

• 大模型防护方案由大模型系统前端接入防护和大模型系统后端安全加固两部分构成。前端接入防护主要实现大模型安全接入和数据泄露防护;后端安全加固实现对大模型系统核心软硬件威胁检测与分析、系统操作安全审计及容灾备份功能。

• 除了上述安全防护措施外,大模型系统还引入人工审查机制,保障大模型输入输出的内容安全性,降低不良信息输入和输出概率。

3.实际应用中的保密措施:

• 大模型的DGA恶意域名检测智慧引擎在某运营商试点项目中运用时,成功监测到多个恶意域名和僵尸网络,有效防范了网络安全风险。在这一过程中,模型的预训练数据并未泄露,确保了数据的安全性。

• 大模型支持云端部署,并以云服务方式提供外部使用。为了防止模型被滥用或恶意利用,天融信提出了前后端联合的安全防护方案,确保模型在对外提供服务时全生命周期的安全性。



三、如何克服量子计算破解密码问题

要克服量子计算破解密码的问题,可以从以下几个方面入手:

1.采用量子安全加密算法

• 原理:量子安全加密算法是基于量子力学原理设计的,能够抵御量子计算机的攻击。这些算法通常利用量子态的叠加、纠缠等特性,实现密钥的生成、分发和加密过程的安全性。

• 实践:目前已经有一些量子安全加密算法被提出并得到了初步应用,如量子密钥分发(QKD)技术。QKD利用量子力学中的不确定性原理,使得任何试图窃取密钥的行为都会被发现,从而保证了密钥的安全性。

2.发展后量子密码学

• 定义:后量子密码学是指研究能够抵御量子计算机攻击的密码学理论和算法。这些算法通常基于新的数学难题或计算假设,以确保在量子计算机时代仍然保持密码学的安全性。

• 研究重点:后量子密码学的研究重点包括设计新的公钥加密算法、数字签名算法和密钥交换协议等,这些算法需要能够在量子计算机的攻击下保持安全性。

3.加强密码算法的安全评估与测试

• 重要性:在量子计算机时代,密码算法的安全评估与测试变得更加重要。通过对算法的安全性进行全面评估,可以发现潜在的漏洞和弱点,并及时进行修复和改进。

• 实践:可以采用形式化证明、密码分析、仿真测试等多种方法对密码算法进行安全评估。同时,还可以建立密码算法的测试平台和测试标准,以确保算法的安全性和可靠性。

4.推动密码技术的标准化与规范化

• 意义:推动密码技术的标准化与规范化有助于确保密码算法的一致性和互操作性,降低算法被破解的风险。

• 实践:可以制定密码技术的国家标准、行业标准和国际标准等,对密码算法的设计、实现和应用进行规范和指导。同时,还可以加强密码技术的监管和管理,确保密码技术的合法性和安全性。

5.持续关注量子计算技术的发展动态

• 原因:量子计算技术是一个不断发展的领域,新的算法和硬件不断涌现,可能会对现有的密码算法构成新的威胁。

• 做法:因此,需要持续关注量子计算技术的发展动态,及时了解最新的研究成果和技术进展。同时,还需要加强与国际同行的交流与合作,共同应对量子计算带来的挑战。

综上所述,克服量子计算破解密码的问题需要采取多种措施,包括采用量子安全加密算法、发展后量子密码学、加强密码算法的安全评估与测试、推动密码技术的标准化与规范化以及持续关注量子计算技术的发展动态等。这些措施共同构成了应对量子计算挑战的综合防御体系。




文章节选自 《中经专网》--总编时评



中经专网+


扫码获取完整报告

阅读更多精彩内容

未来经济工作着力点


中经专网
“中经专网”由国家信息中心中经网主办。公众号追踪国内外重大政策、重大事件和热点、重难点问题,筛选总结、提炼分析,支撑用户把握新阶段,研判新形势。
 最新文章