转自:《中国科学基金》2022年第3期
自2001年起,MIT Technology Review 每年都会评选出年度“全球十大突破性技术”,不少在当年崭露头角的技术,如今已经深刻地改变了我们的生活,推动了人类社会的进步。2022年2月23日,MIT Technology Review 评选出的年度“全球十大突破性技术”包括:终结口令、新冠变异追踪、长时电网储能电池、新冠口服药和除碳工厂等。这些上榜的科学技术突破代表了当前时代科技的发展前沿和未来方向,《中国科学基金》编辑部特邀请各领域著名科学家对“十大突破性技术”中的九项分别进行深入解读,推进科技资源科普化。这里选择了其中与IT技术有密切关系的三项,包括终结口令?、权益证明、人工智能合成数据。
1
终结口令(The end of passwords)?
20世纪60年代,口令(Password,坊间称为“密码”)最早被图灵奖得主费尔南多·科尔巴托教授用于大型机的本地文件访问控制。20世纪90年代,互联网开始进入千家万户,口令也在互联网世界得到广泛应用。随着用户网络账号的增多,用户为了方便记忆,倾向使用流行口令、在口令中使用个人信息、在多个账号重用口令,导致严重的安全隐患。自2000年以来,数以百计的新型身份认证方案陆续被提出。其中,无口令(Passwordless)方案近年来受到企业的青睐,比如谷歌、苹果、微软等公司,都为用户提供了无需输入口令就能登录应用和服务的身份认证方案。在无口令身份认证方案中,要么用户拥有一部带摄像头或指纹识别器的移动设备,并安装相应的身份认证应用程序;要么用户拥有专门的硬件设备(如U盾),以存储身份认证所需的密钥及算法参数。当前无口令身份认证方案仍在初级阶段,面临可扩展性低、部署成本高和隐私泄漏等挑战,这些问题亟待解决。在可预见的未来,口令将仍是最主要的身份认证方法,无口令方案可能会使普通用户对口令的直接接触变少,但口令仍在幕后保护着我们的网络与信息安全。
专家点评
汪 定 南开大学网络空间安全学院教授、密码科学与技术系主任,天津市网络与数据安全技术重点实验室副主任,研究方向为数字身份安全。以第一作者(或通讯作者)在IEEE Symposium on Security and Privacy、IEEE Transactions on Dependable and Secure Computing 等刊物发表论文80余篇。研究工作引起美国身份认证标准NIST SP800-63-3的修改。获教育部自然科学奖一等奖、中国计算机学会(CCF)优秀博士学位论文奖、ACM中国优秀博士论文奖、中国密码学会优秀青年奖。
陈晓峰 西安电子科技大学网络与信息安全学院教授,国家高层次人才,互联网基金会网络安全优秀教师。主要研究领域为密码学和云计算安全,已在重要国际会议和期刊发表学术论文200余篇。担任IEEE Transactions on Dependable and Secure Computing、IEEE Transactions on Knowledge and Data Engineering 等著名国际期刊的编辑,Asia Conference on Computer and Communications Security 2016、International Conference on Network and System Security 2014 等多个国际会议的大会主席。获2019年度教育部自然科学奖二等奖、2016年中国密码学会密码创新奖。
马建峰 西安电子科技大学网络与信息安全学院教授,国家高层次人才,互联网基金会网络安全优秀人才,“网络与信息安全”教育部创新团队带头人,陕西省“网络与信息安全”三秦学者创新团队带头人。历任西安电子科技大学计算机学院院长、网络空间安全学部主任。担任国务院学位委员会“网络空间安全”学科评议组成员、陕西省网络安全与信息化专家咨询委员会副主任。曾以第一完成人身份获得国家技术发明奖二等奖两次。
身份认证是保障网络安全的第一道防线,口令(Password,坊间称为“密码”)是最常用的身份认证方法。近年来频频发生的大规模口令泄露事件,为黑客和不法分子破解用户的账号口令提供了源源不断的素材,引起人们对口令安全性的担忧。在这一背景下,美国Okta 和 Duo等面向企业用户的公司,微软和谷歌等面向个人用户的公司,都为用户提供了无需输入口令就能登录应用和服务的身份认证方案,引起社会广泛关注,并入选此次MIT Technology Review “十大突破性技术”。
实际上,这是“终结口令”的第二次浪潮。口令最早在20世纪60年代开始在大型机上使用[1],设计初衷是用来控制大型计算机上本地文件的访问权限,避免分时操作系统的时间片滥用问题。20世纪90年代以来,互联网服务(如电子邮件、电子商务、社交网络)蓬勃发展,口令成为互联网世界里保护用户信息安全的最主要手段之一。随着用户的口令账号越来越多,为方便记忆,用户倾向使用流行口令、在口令中使用个人信息(如姓名、生日)、在多个账号间直接重用或简单修改后重用口令,导致严重的安全隐患[2,3]。另一方面,攻击者的计算能力不断增强。在这一背景下,自2000年开始,数以百计的新型身份认证方案陆续被提出。
早在2004年,时任微软董事长的比尔·盖茨就对外宣称微软将不再使用口令[4],掀起了“终结口令”的第一次浪潮。微软与当时世界最大的安全公司RSA合作开发了一种名为SecurID的技术,这种技术本质上是一种“硬件设备+验证码”的双因子认证。与此同时,微软也开发了一种名为“tamper-resistant”的生物ID卡识别技术,本质是一种“生物特征+硬件设备”的双因素认证。随后,学术界也陆续指出了“安全的口令记不住,能记住的口令不安全”等问题,提出了数以百计的各类新型身份认证方法,如基于各类基于生物特征、行为特征的认证,基于图形口令的认证和单点登录[5]等。
出乎意料的是,始于2004年的这波“终结口令”的浪潮,到2009年左右逐渐悄无声息地消失了,口令的地位不仅没有被撼动,反而得到了更广泛的应用。用户平均拥有的账号口令数量,也从2007年的25个增长到2020年的80个左右。这引起了学术界的反思。在数字世界里,信任不会凭空产生,而身份认证是构建信任的主要环节。身份认证方法有成百上千种,但基本手段可分为以下三类[5,6]:(1) 基于用户所知,如口令;(2) 基于用户所有,如U盾;(3) 基于用户所是,如生物特征。这些尝试替代口令的新方法,有的在安全性方面优于口令,有的在可用性方面见长,但几乎都在可部署性上比口令差,并且在安全性、可用性、隐私保护方面几乎都难以做到均衡。因此,学术界从2012年开始逐渐形成一个共识[5-7]:口令在可预见的未来仍将无可替代。
2015年至今,学术界逐渐认识到:除了用户因素,导致口令安全问题的另一原因在于服务运营商的安全保障缺失。长期以来,运营商把保护口令的责任推给用户,在最基本的口令策略设置、口令强度评价和口令存储安全等方面都是穿着“皇帝的新衣”[7]。最近,微软、谷歌和苹果等公司加强了口令安全防护措施,并即将为用户提供无需输入口令就能登录应用和服务的身份认证方案[8]。在这些无口令方案中,要么用户拥有一部带摄像头或指纹识别器的移动设备(如智能手机、平板电脑等),并安装相应的身份认证应用程序(如微软的Authenticator App);要么用户拥有专门的硬件设备(如支持FIDO2 标准且能识别指纹的U盾),以存储身份认证所需的密钥及算法参数。此外,这些方案仍把口令(或PIN码)作为生物特征识别失效时的应急选项。
由此可以看出,当前无口令身份认证方案仍处于初级阶段,存在明显的缺陷:一方面,仅在大型公司的少数平台和设备上应用(如iOS 16上或Win 10以上),未考虑旧版本的系统和不使用智能手机的人群;另一方面,由于需要特定版本的系统或平台导致可扩展性低,涉及硬件导致部署成本高,由于生物特征的不可更改性导致存在隐私泄漏风险。此外,无口令认证方案降低了用户对身份的控制权,52%的被调研用户表示不接受把信任链条传递到手机等设备。截至2022年2月,78%的微软云服务企业用户仍仅使用账号名和口令登录,只有22%启用了基于口令的多因素认证或无口令方案[9]。
综上所述,在可预见的未来,口令仍将是最主要的身份认证方法之一,基于口令的认证技术仍不可替代。未来,随着无口令方案的不断成熟,在一些场景下(如使用智能手机)用户对口令的直接接触可能会变少,但口令不会消失,仍是应急认证手段,将在幕后保护着我们的网络与信息安全。
图1|“终结口令”技术入选此次MIT Technology Review 2022“全球十大突破性技术”(图片来源:MIT Technology Review 官网)
2
权益证明(Proof of Stake,PoS)
共识算法是区块链技术的核心,通过算力竞争的“挖矿”工作量证明机制消耗了全球太多的电力和计算资源,一直为人诟病。而PoS权益证明机制则有望彻底摆脱这一困境。PoS算法的突出特点是引入了币龄的概念,币龄越长,权力越大,挖矿难度越低,所获奖励越多。这样节点不需要消耗过多的外部算力和资源去竞争记账权,一定程度上还缩短了达成共识的时间,提升了系统运行性能。
专家点评
张小松 教育部“长江学者”特聘教授,电子科技大学网络空间安全研究院院长,博士生导师,中国电子学会区块链分会副主任委员。长期从事计算机网络与系统安全技术的研究。以第一完成人先后获国家科技进步奖一等奖、二等奖各1项,省部级科技进步奖一等奖3项、发明奖2项。
2008年题名为“Bitcoin:a peer-to-peer electronic cash system”的论文发表至今,基于分布式账本技术的区块链在全球产生了巨大深远的影响,而实现分布式系统强一致性及最终一致性达成的共识算法无疑是区块链技术体系的核心,其本质是要解决在分布式网络环境下,如何让所有的节点对窗口内发生事务的顺序和内容正确性达成共识,确保系统内同一个事务处理的可靠和可信,为实现区块链去中心化、开放自治提供机制的支撑和保障。
对于严格维护去中心化机制的“公有链”(Public Blockchain)系统,工作量证明(Proof of Work, PoW)毫无争议是目前最具认可度的共识算法,在全球影响力最大公有链比特币和以太坊系统中均予以采用。PoW的原理是区块链中各个节点通过算力计算哈希(Hash)难题,其中最先解决难题的节点将获得区块记账权,从而以算力竞争的方式保证数据的一致性,这一过程又俗称“挖矿”。PoW机制可以表达为:H(param||nonce)<target,其中,h表示哈希函数,param是区块相关的数据,nonce是随机值,target是由当前计算难度值决定的目标值。显然,要找到符合条件的nonce,只能通过穷举的方法来实现,然而,公链节点规模的扩大和挖矿难度的不断增大,PoW共识机制越来越暴露出无法克服的问题:
(1) 能源浪费巨大。截至目前,采用PoW共识算法“挖矿”的比特币系统,产生一枚比特币的耗电量大约在20万度到30万度之间,导致全球范围内的比特币挖矿能源消耗非常巨大,剑桥大学替代金融研究中心数据显示,仅比特币挖矿年度消耗的电量高达1 300多亿度电,比很多国家的年度用电总量都要高。
(2) 业务性能很低。PoW共识算法要求每笔交易及其区块都要获得所有节点的确认,才会被记录到账本中,而随着网络规模的扩大,共识的耗时必然提升,目前比特币和以太坊系统的共识速度平均仅约5笔/秒左右。虽然有试图以增加区块大小和降低出块时间间隔来提升交易速度的其它衍生公链系统,但是它们仍无法避免出现分叉概率上升的风险和交易效率降低等问题。
(3) 算力集中风险。在巨大的利益驱动下,越来越多的专业挖矿算力节点加入到比特币和以太坊系统,甚至出现多个节点联合挖矿形成了的几大矿池占据多数算力的局面,明显违背了区块链去中心化基本原则和设计初衷。
权益证明算法正是为弥补PoW不足应运而生。PoS算法由PeerCoin创始人Sunny King和Scott Nadal提出并实现,其突出特点是引入了币龄的概念,将消耗币龄(代币数量与时间的乘积)与计算hash散列的工作量一起作为记账权分配的准则,从而等比例的降低hash运算的难度。PoS机制可以表达为:工作量证明hash()<总目标值,而总目标值=币龄X目标值target。因此节点不再是仅依靠算力去竞争记账权,而是通过长期持有或者获得更多的币去增加币龄。与PoW算法相比,PoS算法是在一个有限的空间里进行共识,不需要消耗过多的外部算力和资源,可以有效地弥补PoW的劣势,并且能够在一定程度上缩短达成共识的时间,提升系统运行性能。
股权授权证明(Delegated Proof of Stake,DPoS)基于PoS演化而来,由Block.one公司开发的企业操作系统(Enterprise Operating System,EOS)是第一个采用DPoS的公链项目。DPoS在完成共识的过程中不需要消耗大量的算力,大大提高了区块的生成速度和交易确认效率,同时不会出现PoS机制中富有节点长期支配记账权的情况。
以太坊由于其率先实现了图灵完备的智能合约子系统,目前已经是全世界应用生态发展最好的公有链系统,为解决以太坊面临的网络拥堵、运行节点的算力要求门槛高、PoW机制能耗巨大等困境,从2015年以来以太坊开发团队就一直致力于共识机制的切换研发:(1) 利用分片链来减轻节点验证者的工作量,解决可扩展性问题;(2) 利用信标链随机分配验证者降低作恶概率,保证安全;(3) 利用PoS机制降低节点门槛并保障生态的可持续发展,并最大程度上实现去中心化。
以太坊信标链已于2020年底上线。2022年4月11日,以太坊完成了网络的第一个影子分叉(Mainnet Shadow Fork),启动了一个从PoW过渡到PoS的合并测试网。预计2022年以太坊将完成由PoW到PoS的切换,并由此形成世界范围内节点数最多,应用生态最大的公有链系统,并将进一步推动区块链技术发展。
图6|一种确保数字货币安全的替代方法可以结束加密货币的能源消耗困境(图片来源:MIT Technology Review 官网)
人工智能合成数据(Synthetic data for AI)
训练人工智能模型需要大量的数据。2021年,尼日利亚数据科学公司的研究人员注意到,旨在训练计算机视觉算法的工程师可以选用大量以西方服装为特色的数据集,但却没有非洲服装的数据集。于是,该团队通过人工智能算法人为生成由非洲时尚服装的图像组成的数据来解决这一不平衡问题。这种通过算法人为合成出的符合真实世界情况的数据,具有与真实数据相似的统计学特征,且在数据饥渴的机器学习领域的应用越来越普遍。在真实数据稀缺或过于敏感的领域,如医疗记录或个人财务数据,这些“合成数据”可用于训练人工智能模型。实际上,合成数据的想法并不新鲜,例如,无人驾驶汽车已经在虚拟街道上进行了许多训练。2021年,“合成数据”技术已经变得很普遍,许多初创公司和大学都在提供这种服务。例如,Datagen和Synthesis AI可根据需要提供数字人脸,其他公司可为金融和保险业提供合成数据。
特别地,2021年麻省理工学院发布了名为“Synthetic Data Vault”的开源工具,支持便捷生成不同领域、不同模态的数据。MIT Technology Review 关注到了数据合成方向的技术动态,并鉴于数据对智能算法的源头作用,将其列入2022“全球十大突破性技术”。
专家点评
程学旗 中国科学院计算技术研究所研究员、博士生导师,国家杰出青年科学基金获得者。主要研究方向为数据科学基础理论,大数据分析技术与系统,网络与社会治理大数据应用等。在国内外学术期刊与会议上发表论文200余篇,授权发明专利80余项,谷歌学术引用20 000余次。在数据表征学习、异构大数据广谱关联、信息检索与排序、群体分析与群智众包系统等方面取得突出成果,5次获得本领域国际学术会议最佳论文奖。获国家科技进步奖二等奖3次、国家技术发明奖二等奖1次。
陈 薇 中国科学院计算技术研究所研究员,博士生导师。主要研究领域为机器学习理论与算法,可信机器学习技术及其在智能算法安全中的应用。在International Conference on Machine Learning、Conference on Neural Information Processing Systems、International Conference on Learning Representations 等机器学习和人工智能国际会议/期刊发表学术论文50余篇。2021年入选福布斯“中国科技女性榜”。
人工智能技术已经在百姓生活和社会管理中广泛应用,例如日常购物娱乐和网络社交中的智能算法推荐、生活工作中的智能穿戴和智能算法助手、以及帮助规划调度城市高效运转的城市大脑。人工智能技术浸润着现代社会的每一个角落,已然成为世界科技与社会发展的一大支柱。
2022年MIT Technology Review 评选出“全球十大突破性技术”,“人工智能合成数据(Synthetic Data for AI)”入选其中。如果说以深度学习为代表的智能算法是人工智能技术应用和发展的“引擎”,那么数据就是用于驱动“引擎”的“燃料”。虽然人工智能与机器学习领域的专家吴恩达认为,未来技术落地的重点将会转向数据,形成以“数据为中心的人工智能”[17],但过去几年研究人员还是主要聚焦在模型、训练算法、或者是算力的改进上,对数据本身的关注相对较少。
有观点认为,在大数据时代,数据本身是廉价的,富有价值的是从数据中挖掘到的知识。这个观点并不完全正确。知识是宝贵的,但数据却并非廉价。人工智能模型的效果很大程度上取决于数据质量,“无效输入(Garbage In)”往往会导致“无效输出(Garbage Out)”[18,19]。为了得到高质量的数据,需要对数据进行预处理,包括处理缺失数据和异常数据等。此外,为了提高模型训练的效果,还需要邀请领域专家人工为每一份数据附上标签,这大大地提高了数据的获取成本并制约了数据集的规模。除去获取成本高昂以外,特定领域的数据集还受限于用户隐私,极难采集。以医学影像领域为例,患者的医学影像(如X光片)被医院保管,医院无权泄露。这很好地保障了患者的隐私,但同时增添了领域研究者获取数据的难度。
因此,如何高效、廉价并在不侵犯隐私的情况下获取大量数据,是人工智能领域的关键问题之一。为了实现这一目标,研究人员提出了“合成数据(Synthetic Data)”的方法,即通过算法人为生成出符合真实世界情况的数据集[20-22]。合成得到的数据集可以用于人工智能模型的训练,且具有获取成本低、质量高、避免侵犯隐私等优点,有望解决目前模型训练中数据缺乏这一瓶颈问题。综上,笔者认为,MIT Technology Review 关注到了数据生成方向的技术动态,并鉴于数据对智能算法的源头作用,将其列入“全球十大突破性技术”。
国际上,“合成数据”技术研究的价值已经正在得到广泛认可,许多知名研究机构及科研院校都正在开展关于合成数据的项目。特别地,2021年麻省理工学院发布了名为“Synthetic Data Vault”的开源工具,支持便捷生成不同领域、不同模态的数据[23]。此外,国际资本市场也提早预期到了“合成数据”技术的潜在价值,催生出了一批初创公司, 如AI.Reverie、Sky Engine、Datagen等。其中,AI.Reverie在2021年被Meta公司收购,用于支持元宇宙的开发;Datagen在2022年3月获得5 000万美元的B轮融资。成功的商业模式正在表明“合成数据”这项技术并非只能用于实验室场景,在实际场景中也能够发挥重要作用。高纳德咨询公司在2021年6月的报告中甚至预测,到2030年,绝大部分用于训练人工智能模型的数据将是合成数据[24]。
我国的科研院所及商业公司也在“合成数据”领域积极进行研究探索,并取得了优秀的成果。例如,中国科学院的研究人员提出了对偶生成模型(Dual Variational Generation, DVG),该模型能够高效地生成大量现实中不存在的人脸虚拟图像,从而有效缓解异质人脸识别任务中缺乏数据及数据采集成本过高的问题[25]。商业公司也正在该领域进行有效探索,例如,支付宝公司基于实物建模技术与渲染技术提出了一套用于合成三维数据的方案,有效降低了模型训练中的数据成本,并且避免了人工标注数据带来的不可靠性[26]。相对而言,我国关于“合成数据”的研究主要着眼于服务下游任务,对“合成数据”技术本身的研究仍有待开拓。
“合成数据”领域的技术发展趋势迅猛,正在被期待对人工智能产生“再次点火”的作用。本次入选MIT Technology Review “全球十大突破性技术”榜单,也将使其受到社会各界的更多关注。然而,笔者认为我们仍然需要重点关注以下几个问题:
(1) “合成数据”的评估问题。研究者们逐渐意识到,高质量的合成数据集不仅仅可以作为真实数据集的补充,更可以作为训练人工智能模型的主要数据来源。但在全面应用合成数据集之前,需要充分研究合成数据集与真实数据集的差异,从而避免应用合成数据集带来的偏差。如何评估合成数据集与真实数据集的差异仍是一个亟待解决的问题。
(2) “合成数据”仍存在“非自然数据”的问题。目前大多合成数据技术是基于统计机器学习方法的,由于经典统计学只关注了数据中蕴含的相关性,而忽视了因果性,因此有可能会生成不合逻辑的数据。例如,合成图像中可能会出现具有异常背景的图像,这类数据被称为“非自然数据”[27]。“非自然数据”对智能算法的影响目前仍然未知,尤其对算法的鲁棒性和可靠性。刻画影响的边界并提早思考应对办法将会是“合成数据”能否进入风险敏感领域的关键。
(3) “合成数据”的“隐式隐私”泄露问题。虽然“合成数据”并不由某个用户产生,但是目前的“合成数据”仍然需要借用数据来训练用于合成数据的模型,比如生成对抗网络。由于生成对抗网络结构的复杂度较高,因此在模型训练的过程中,存在记忆原始训练样本分布的可能。已经有最新研究结果表明,可以通过合成的数据反向推断出原始训练样本[28]。所以,数据合成技术存在上述“隐式隐私”泄露问题,如何更严密地保护隐私仍是有待探究的问题。
图8|人工智能的好处主要集中在数据资源丰富的领域,而“合成数据”有望填补领域空白。(图片来源:MIT Technology Review 官网)