关键词:算法决策;公共治理;敏感信息保护;技术理性;基本权利
目次 一、问题缘起:算法决策处理敏感信息的特殊性
二、算法决策处理敏感个人信息引发新的法律风险
三、算法决策处理敏感个人信息中的双重价值面向
四、算法决策中敏感个人信息保护的合理路径
五、结语:融于规范性的工具理性
人工智能作为一种自主决策系统,离不开算法和信息这两大核心要素的支撑:大数据生成和处理技术提供了人工智能的决策信息,而机器学习特别是深度学习算法提升了人工智能的预测和分析能力。算法在处理敏感个人信息时,面临的问题是:人工智能算法作为一种新技术手段介入公共治理决策,改变了传统的公民信息保护场景。算法在信息汇聚的过程中,违背个体自主意愿,隐秘地使用敏感个人信息产生算法歧视和决策不公,再以技术中立对算法决策结果主张免责,敏感个人信息主体因为算法黑箱和实体法救济固有模式,会面临个人信息权利行权的困难。表面看,算法处理敏感个人信息引发的法律难题,可以通过算法规则(关注算法公开和算法解释;通过优化输入和决策程序消除算法歧视;主张算法黑箱构成算法应用免责)和信息规则(强调信息决策自主;给予敏感个人信息处理有限禁止;维护信息群体价值)予以调整,但这两种规则从根源上存在工具理性和内在价值的冲突。欲妥善处理上述两种规则的价值冲突问题,就必须关注算法决策处理敏感个人信息时在事实和规范层面的特殊性。
意大利的个人数据保护监管机构卡兰特(Garante)曾对本国最大的两家在线食品递送公司户户送(Deliveroo)和福迪诺(Foodinho)处以高额罚款,处罚的理由是:这两家公司根据自动化决策评价快递员的工作表现、分配订单并据以处罚员工,但其自动化决策的算法并未向决策相对人公开,且这两家公司未能证明其对算法的应用不存在歧视,以及用以派单决策的算法未使用具有敏感性的公民信息。再如,欧盟数据保护监管机构(European Data Protection Supervisor,EDPS)于2022年强制要求欧洲刑警组织(Europol)删除其非法持有超过六个月的数据,并强调欧洲刑警组织的失职之处在于存储与外界共享的数据集时没有经过适当检查,并且没有验证数据主体是否应该被监控或其信息是否应当被保留。欧洲刑警组织保存的大量数据中不仅包括恐怖犯罪嫌疑人、严重犯罪嫌疑人的数据,而且包括大量与这些群体接触的其他公民的敏感信息,并且欧洲刑警组织一直试图通过提案将原有的敏感个人信息缓存合法化,试图将这些收集到的信息作为开发新型AI技术和机器学习工具的实验样本。这两起处罚旨在消除算法歧视和算法黑箱,消除用以作出决策的算法可能存在的不公平现象。但更深层次的意图直接指向自动化决策中算法对敏感个人信息处理问题,也就是算法规则中的信息规则,“算法作为数据共享和自动化决策的核心应该被作为更广泛的信息的架构的一部分予以理解”。因此问题可以归结为:算法规则与信息规则两个看似独立的系统为什么会结合在一起;在规范层面,算法规则和信息规则在实施时何者优先。在技术层面,算法决策本身是一个丰富的概念,可能涉及机器学习、自然语言处理等多种AI技术的设计和部署,也可能存在于识别、理解、响应、执行等决策过程的不同阶段。算法技术领域的研究者就算法能够在全部或者部分排除人为干预的情况下,处理和析出包含在数据中的敏感个人信息业已达成共识,我们通常可以将这种共识理解为“为了解决特定问题,设定特定目标或者定义特定结果,而进行的系列计算过程”。在信息科学领域,算法决策通常被定义为“输入信息,根据规则,创建信息输出和表达”的一种自动化决策方式;此时,既有信息科学领域的研究者将算法视为一种对特定的个人或者群体进行描述的知识;他们强调这一描述性知识在现阶段存在收集信息错误、处理信息过于简化、输出信息造成歧视、对使用信息特征进行不恰当区分等问题。
在驱动社会和经济发展层面,算法决策系统逐步摆脱工具主义而嵌入社会权力,决定着“经济系统底层秩序,数据的产生增长,到上层具体应用实践”,俨然成为一种驱动知识表达和结构部署的变革性力量——人们日益沉溺于技术发展带来的免费数字服务。但是这些服务并非真的免费,而是消费者通过提供自己的个人信息和在网络世界的各种活动记录作为代价换取的。百度、谷歌(Google)公司利用手机位置信息分析城市交通速度和运动趋势,并依靠地图软件为人们提供可行的交通方案;滴滴和优步公司则根据算法决策预测乘客需求,并根据乘客的个性化标识来提高车辆的调度效率;抖音、YouTube依靠算法决策来分析和提高网络媒体的流量;公共部门最初收集数据的主要目的是为了通过自动化决策系统以进行社会福利分配和政策预测,而到了到现阶段,已然在银行金融、医疗卫生、行政决策、刑事司法等领域中广泛部署自动化决策。这些行为深刻影响着社会权力和国家权力的运行过程。就本质而言,以算法进行的数据信息加工可以实现决策的“闭合和简化”,即帮助决策系统排除复杂因素干扰,实现完整和标准化输出,以满足多元用户需求,并保持既有秩序的稳定。
早在1980年,经济合作与发展组织(Organization for Economic Cooperation and Development,OECD)制定的《隐私指南》即提出自动化技术将对个人隐私和数据保护带来挑战。1981年,欧洲理事会发布了著名的108号公约,即《关于个人数据自动化处理的个人保护公约》(Convention for the Protection of Individuals withe regard to Automatic Processing of Personal Data),将自动化处理中的个人数据保护作为直接调整对象。但该公约公布时个人信息保护所面临的自动化技术背景与今天面临的数智社会人工智能算法技术背景不同。公约公布时,整个社会实行电子化办公,互联网和智能时代还未到来。虽然欧盟和美国分别开启了以维护人性尊严为目的和实现数据信息的经济价值为目的的立法保护进程,但算法决策和敏感个人信息的规范问题并未真正的勾连在一起。欧盟《通用数据保护条例》(GDPR)和《中华人民共和国个人信息保护法》(以下简称《个人信息保护法》),都使用了“自动化决策”的概念对算法决策进行规制。自《个人信息保护法》实施以来的学术研究,将算法决策与敏感个人信息保护视为两个重要但独立的系统,学者就算法规制理论及其比较法解释进行了充分的研究。最新的研究关注了以自动化决策进行商业推荐和信息处理的特殊性,但强调算法推荐是一个独立的系统。伴随智能算法在决策领域的进一步应用,尤其是伴随着算法决策介入行政行为和公共数据的处理,在技术层面,算法已经可以将原始样本数据转化为方便机器处理的数值,并通过“人脸识别、步态识别、声音识别”不断提升自动识别敏感个人信息的能力。在法律层面,如果算法决策获取的敏感信息足以构成支撑公共决策的有效证据,通过数字洞察能力提供个性化服务,则该算法决策才具有正当性。在公共治理中,如何应用算法决策对敏感个人信息进行处理成为一个重要命题。因为人工智能算法决策不仅可以提升计算能力和决策效率,而且可以越来越多地通过对大量的数据痕迹和历史活动的数据收集,深度挖掘和深入分析信息之间即便是很微弱的相关性,进而对社会趋势和个体行为进行预测。在行业和产业发展驱动下,很多公共机构和私营部门开始广泛收集公民的敏感个人信息,引发了公共数据领域的数据安全保护、个人隐私和自由的保护等法律问题。当发现算法决策和数据分析并不中立时,人们开始广泛关注算法决策逻辑如何改变既有的公共和私营部门的决策逻辑。显然,人工智能算法决策与对公民的敏感个人信息保护之间,存在着显著冲突,因而,人工智能决策与敏感个人信息保护问题实际上是勾连在一起的。
人工智能算法决策与敏感个人信息保护的融合存在两种方式:第一种融合方式的主要目标是使用人工智能帮助法律实现决策的可计算化和应用的可程序化,也就是构建一套类似于人类法律推理和论证的计算程序;第二种融合方式是借助人工智能算法决策分析敏感个人信息保护条款的语义,其主要目标是通过人工智能反馈系统帮助立法者制定规则或者通过决策系统检视高风险。在第二种融合方式中,技术人员发现了算法知识生成方式和法律规则知识表示方式的吻合性,即人工智能文本解析技术的发展水平越高,越能够从实体法律渊源中提取有效信息,并进行代码转化能力的自我提高。
伴随着人工智能算法决策与敏感个人信息保护的融合程度的加深,人们也加深了对以下问题的思考:为什么敏感个人信息的运用不能够突破既有的法律制度,纵然其目的是公共治理本身?算法决策带来的不仅是规模化效应,它可以进一步挖掘敏感个人信息的细粒度和个性化程度,那么敏感信息对于个体而言是否依然稀缺并且还具有那么大的价值?敏感个人信息的处理规则如何被转变为算法决策的评估与问责标准,换言之,在算法设计层面部署“善的价值”时,人们应当如何对人工智能数据处理层面的敏感个人信息进行净化和脱敏,并建立相关的审查机制?目前算法深度处理和规模化收集敏感个人信息的技术发展需求,与必须按照法定程序收集和利用敏感个人信息之间出现了紧张和矛盾。合理化解这一问题,是我们针对算法决策中处理敏感个人信息的特殊性,处理算法规则与信息规则的关联性以及以信息规则的优先性化解算法决策风险的前提。
(一)算法决策中信息的汇聚性与信息的自主性产生冲突
人工智能算法通过对敏感个人信息的汇聚可提升数据的价值,因为算法决策通过将原始的敏感个人信息和其他数据进行加工,产生衍生数据、促成算法升级、形成高密度的数据集。伴随着人工智能对敏感个人信息处理造成的风险,有学者提出个人数据和大数据的概念,用以区别于敏感个人信息。他们认为数据是一种信息集合,数据只有汇集才能产生准确的预测价值,对群体数据的处理更能够获得准确判断,而仅仅针对个体或者少数群体的数据进行处理未必能获得准确的预测效果。经过算法加工的敏感个人信息更强调其流通性和汇聚性,故不应当将其纳入敏感个人信息保护法的规制范围,从而过分强调个人对自己敏感个人信息的绝对控制。当然,信息或者数据的控制者可能与敏感个人信息主体发生分离,过于强调数据的汇集而忽略其中敏感个人信息作为原生数据的作用,本身就可能带来风险。
首先,大数据技术能够对信息进行普遍性的汇聚,在这一过程中数量十分庞大的群体敏感个人信息会被算法予以累加处理。但算法汇集数据后将发生怎样的结果,敏感个人信息的来源者并不能预见。在数据累加的过程中,算法决策根据数据相关性可能生成新的个人数据,但这些数据未必与特定个体行为具有直接的因果关系,却依然会被用作个体和群体行为的预测依据,容易导致敏感个人信息来源主体被标签化。其次,部分敏感个人信息由于自身客观属性会发生群体性关联。此时,信息主体决定信息是否被披露的自主性受到他人意愿的干预。比如生物信息已经被证明具有家族和社群关联,生物信息稳定性越强(虹膜信息、基因信息等),信息主体由于其他关联成员的信息披露被迫知情、被迫同意甚至被迫公开的机率越大。例如自然人A的父亲因基因缺陷而患大肠癌去世,虽然A目前没有发病表征,但是A的儿子a通过基因测序发现自己携带大肠癌致病基因,此时纵然A没有进行基因测序,也将长期受到自己可能携带致病基因并大概率可能患病的信息困扰。医药领域人工智能算法的一个重要目的就是提升敏感个人信息和群体数据样本的对比分析效率,而这无疑也会对敏感个人信息的自主性产生巨大影响。最后,数据的公共治理离不开对公民个人信息特别是敏感个人信息的数据库建设和管理。但利用人工智能对敏感个人信息进行数据库编辑和访问以及等差隐私密码解析技术的存在会给个人隐私造成泄漏风险。比如张三的敏感个人信息被排列在数据库中,行为人想要获取张三是否患有某种疾病的信息,可以通过张三敏感个人信息所在的位置信息,推知张三某种疾病的检测结果显示阳性,纵然张三本身的患病信息并没有被直接披露。此时,公共算法决策进行敏感个人信息普遍性汇聚处理的必要性与信息保护自主性维护之间就产生了明显的矛盾。
在以上三种情景中,算法处理敏感个人信息都强调了信息的普遍性汇集,并对强调信息主体自主性的传统信息规则造成了挑战。但这不意味着法律规制算法决策处理敏感个人信息时就应该放弃使用传统的信息规则,转而将个人信息融于大数据的范畴进行调整。秉持算法规则优于信息规则的观点,有一个基本的逻辑假设是,基于信息处理必要性而对个体信息自主性进行限制是合理的。但以数据的汇聚性而否认信息自主性的观点在法律规制层面存在两个逻辑不能自洽之处:一是法律规则设计并不将因果关系作为敏感个人信息处理的唯一理由,因为人们对信息联系的理解方式存在三种——相似关系、相近关系和因果关系,“亲亲得相首匿”“同居共产得相首匿”制度就是对亲缘相似关系信息和空间时间相近关系信息的承认;二是法律对信息因果性的判断,并不完全建立在信息处理必然性的基础上,将因果性完全等同于必然性,只能让人的既有经验与技术发展处于对立面,让人的理性与人工智能的“理性”处于竞争升级的优劣比较中,割裂人工智能与人类智能之间的联系。
(二)算法歧视类型与传统歧视的关联性
尽管有证据证明传统歧视和算法歧视不同——算法歧视不仅会延续和放大人类社会固有的偏见,而且会通过系统性区分和决策性一致塑造歧视的隐秘性、永久性,但这并不意味着因算法决策产生的歧视问题可以摆脱信息规则的调整。因为信息是“作为特征向量输入算法的,而这些特征向量是描述信息质量的列表,这些质量本质上取决于输入信息的人”。算法决策引发的歧视与人类决策的传统歧视具有关联性,这是信息规则能够解决算法决策引发的歧视问题的前提。对算法歧视进行分类有助于强化对二者关联性和同质性的认知。算法可以划分为基于知识的算法、机器学习算法和深度学习算法,它们分别对应着算法决策敏感个人信息处理引发歧视的三种类型:
第一种算法歧视是在传统决策过程算法模型化、信息处理可视化过程中产生的,即过程歧视,是人为性歧视(主观性歧视)的延伸;第二种歧视是算法决策选取样本时存在的歧视,其产生原因是机器学习作为一种训练算法的方法,不需要明确编程就可以获得学习能力,但是其分析信息的能力受到输入样本的影响,这种歧视之所以会产生源于样本性偏差;第三种歧视是模拟生物大脑的神经网络从代表性样本中自主捕获敏感个人信息特征而引发的歧视,与机器学习需要特征选择(打标签或者人工标记)不同,深度学习可以自主决定不同的模拟神经元节点的信息变化和权重,进而把现实世界获取的敏感个人信息转变为决策依据。基于知识的算法和机器学习算法处理信息引发的歧视,我们可以将其纳入传统的反歧视和平等权利保护规则来调整,即禁止通过程序设计或者筛选分类造成相同情况对不同群体的区别对待;对深度学习引发的歧视问题的规制,我们应当考虑三个方面的技术优化:第一,深度学习算法的哪些决策步骤选择布局可以取代人类决策;第二,被布局的深度学习算法是否可以使用特殊类型的个人信息;第三,如何将“就业能力”“入学资格”“累犯”“服刑期限”等法律定性问题转化为可计算的信息输入算法模型。
算法歧视虽然具有特殊性,但与人类决策密切相关。伴随着技术进步,人类社会会使用越来越多的机器组合算法,但其处理敏感个人信息的基础具有相似性。人的某些敏感信息当然是可以被计算的,但是算法却不能作为计算人的信息唯一标准,算法的设置和算法处理敏感个人信息的行为,必须接受合法性审查。换言之,算法决策所使用的底层技术无论如何进步,都不能与敏感个人信息处理的法律规则、公平价值相违背。纵然社会公共治理中使用人工智能先进的算法进行的预测是正确的,但是如果算法使用敏感信息导致对个体的歧视,那么自动化决策应当被法律禁止。同时,算法如果不公平,在个人之间或群体之间制造了差别,该算法就应当被调整。例如,亚马逊的招聘推荐算法,试图解决的是,a(某女性)在A(全部为女性的群组中)被公平地给予就业分数,或者b(某男性)在B(全部为男性的群组中)被公平地给予就业分数,且两个就业群组的评价模型一样准确一样稳定,应当说这是一种能够保障个体公平的算法。但法律不仅应保障个体的公平,而且应保障群体的公平。例如,设置一个算法,让某一个女性应聘者与某一个男性应聘者应用同样的就业评分模型,这件事情是容易的,但是回到复杂社会环境中,让某一个女性与某一个男性在社会评价体系中获得同样的就业分数,并且拥有同样就业的可能,这则是困难的。因为前者是用算法解决个体正义问题,后者还需要考虑群体的普遍正义。个体正义和普遍正义在算法中的同时实现,离不开更丰富的决策信息和信息规则背后价值的衡量与博弈。正因如此,算法的法律规制不能因为算法歧视的特殊性而摒弃信息规则的使用,这一摒弃的后果不仅割裂了算法歧视与人类歧视存在的客观关联,而且限制了信息规则在宏观层面能够给予算法价值部署的指导功效。
(三)算法决策会突破法律的规定而处理敏感个人信息
其一,人工智能算法可以使用法律规定的敏感个人信息的替代信息进行决策,比如以工作时长信息代替宗教信仰信息,以饮食习惯和邮政编码信息代替种族信息,所以有人主张敏感个人信息不具有特殊性,因为信息的组合可以充当敏感个人信息的置换品。既有的实体规范采取的列举式立法模式,对于敏感信息保护具有重要意义。列举式的保护可以阻止一定类别的信息作为算法处理对象,并可预防因其泄露造成的风险。但人工智能和大数据技术对信息相关性的挖掘是一个渐进过程,立法并不能预先穷尽所有的信息类别以实现对敏感信息的保护。伴随着深度学习技术的不断进步,单纯修正某一类别的信息变量,可能对于修正信息引发的歧视问题的规制作用不大。我们依旧以亚马逊的招聘算法为例,这一算法在被发现有基于性别的歧视后,程序员隐藏了算法对“性别”这一信息的识别,但算法本身依然能够通过其他信息进行有效的“性别猜测”。算法决策对于信息相关性的挖掘,会改变个人对信息的控制,会冲击个体选择“知情”或者“不知情”的自主性,还会建立法律所保护的敏感信息和敏感信息以外的信息之间的关联,进而规避自动化算法决策处理敏感个人信息的相关法律的禁止性条款。
其二,个人信息保护规则面对算法决策的“黑箱问题”必须保持包容,因为人脑是黑箱,“传统的行政决策架构由于决策主体、知识和程序的封闭性也是一种黑箱”;算法黑箱的存在会导致人们对因果关系的认知断裂,算法黑箱本质上是人为的排他性信息预设。传统的人类决策和算法决策都需要从个体或者群体层面收集敏感个人信息作为决策的数据依据;人类决策和算法决策机制都存在“将单次错误转化为系统性决策结果”的可能性。但算法决策与传统公共决策存在本质的区别:目前算法处理敏感个人信息的设计、布局、调试和修改的过程,并不具有法定化的记录档案,也不存在强制性的沟通与对话机制。所以,法律欲有效规制算法,保持个人信息处理规则在算法领域的有效性,就应当穿透式审查、敏捷性回应,扩展行政法解释,强化对算法的合法性审查。
算法运行的有用性、普遍性、实效性并不必然推导出其处理敏感个人信息的客观性、正当性与合法性。算法需要规制,不能被解读为算法对决策尤其是公共决策没有作用或者算法决策应当被抛弃,而是因为算法引起了不同类型信息歧视的交互。我国以算法治理为抓手而开展的平台反垄断、数据安全、网络安全审查以及未成年人保护等问题,标志着“中国本土特色的平台穿透式监管和对科技行业从宽松宽容到积极严格的态度转变”,意味着法律规制进入算法内部且其对算法进行实质审查作用的强化。但是,要妥善应对算法决策在处理敏感个人信息时所引发的新的法律危机,还必须考察危机背后的价值导向。
“算法赋能”与“场景化应用”相互结合,成为法学学者研究算法决策机制的一种重要方法。信息规则的底层逻辑建立在高度抽象的行为模式之上,存在叠加性适用的困难。与之相比,作为工具的算法指向明确,能够应用于不同领域、发挥不同的社会赋能作用、挖掘更加丰富的算法决策产品,并进行具有针对性的算法决策。算法规则在决策中发挥的作用无可替代,但算法的工具理性不应被过分夸大。算法决策时,在个体层面容易忽略人的主体价值,在共同体层面会影响集体意识的形成和凝聚。这一集体意识正是“社会成员平均具有的信仰和感情的总和,构成了他们自身明确的生活体系”。正如涂尔干所言,这样一种超越了利益考量而在伦理层面沉淀,并表现为法律规范的集体意识的存在,确保了现代性过程中社会的稳定和进步。去除社会中的道德价值,既不是现代性的特征,也不是技术中立的正当性体现。算法决策在处理敏感个人信息的过程中既应更丰富地体现共同体价值,又应保障个体的平等和个性化诉求的实现。因此,欲有效保护算法决策中的敏感个人信息,就不能忽略其背后的个体价值和共同体价值的双重价值面向。
(一)凝聚社会共识中的个体化维护
人工智能算法处理敏感个人信息产生了个体不可预见的信息汇聚风险,它会延续既有的偏见并创造新的社会偏见,易突破传统信息保护法律制度并导致新的社会不公。如何解决这些法律问题?理论研究和实践领域倾向于把算法解释作为信息主体的行权方案之一。算法解释权的出现正是建立在算法分工日益精细化和专业化的基础上。算法解释有助于缓解“算法公开可能给算法设计者商业利益带来损失”与“算法不公开则造成敏感个人信息被决策者自主性受到技术干预”之间的对立。算法解释可提升算法决策的可信度,消除个体因为信息断裂而对算法产生的恐惧与厌恶感,强化算法技术整体上的道德正当性。但这仅仅缓和或者隐藏了算法设计者与信息主体之间的矛盾。算法解释不仅要解决设计者与被决策者之间的冲突,还应当解决算法设计者之间的内部协调问题。在人工智能知识生产过程中,算法设计者之间存在竞争关系。由于诸多的算法技术方案是不断更新迭代的,不同算法的命名、逻辑、实施路径较为混乱,并被作为“祖传代码”留存下来。因此算法解释必须首先将在算法之间存在的差异、分离、竞争的技术群体组织起来,形成协作,并且形成统一的解释规则以应对外部法律审查。因此,算法解释不仅应促进决策公平,消弭存在于算法设计者与敏感个人信息主体之间的专业性壁垒、被决策者与决策者之间的数字鸿沟,而且应形成解释合力,凝聚社会价值共识。算法决策可解释性的提升离不开人力对算法的干预,也离不开决策后算法对制度的评估。因为算法的部署,本质上会对公民(敏感信息的主体)、技术(算法设计群体)以及公共管理(共同体价值)之间的相互关系产生影响。
信息时代知识创造的第一个趋势是以“算法赋能”和“场景化应用”为基础,第二个趋势就是信息处理的个体化。算法处理敏感个人信息中的个体化特征是算法社会分工后信息组成单位的进一步发展,但个体化并不等于个人主义。敏感个人信息作为个体权利的存在依据、基础问题和内在结构,恰恰不是以个人主义为中心,而是为了更好地保护算法决策环境中的共同体。只有如此,个体作为敏感信息主体,才能获得充分的尊重和有力的法律保障,并且在面对个人信息侵权者时不因客观力量对比悬殊而出现权利失能。
个体化的信息呈现是人工智能算法进行信息收集、数据加工和相关性挖掘的前提。过去人们将个体化的信息发掘视为一种把人从精神压迫和身体束缚关系中解放出来的行为,伴随着越来越多的个体从传统的婚姻家庭、传统的伦理和行业社区中解脱出来,人们认识到:一方面,公共治理应适应社会主体类型加速分化的趋势,应以新技术为手段凝聚分散的决策共识;算法决策应建立在对信息相关性的挖掘基础之上,“这一相关性能够将个体特征、在先的行为、公共或者私人关系、令人满意或者不可接受的风险社会类别联系在一起”。算法决策系统嵌入公共治理能够发挥其将分散的个体进行整合,将潜在关系联系起来的优势。人工智能算法虽然是一种新技术手段,但其决策逻辑契合了公共治理的整体性观察、类型化客观事实、简单化执行的传统治理路径。另一方面,公共算法决策努力的方向应当是激发每一个个体的能力,防止个体受到技术的不断挤压,凝聚社会整体价值共识,促进社会团结和正义,并为其提供制度保障。
(二)决策的准确性与算法反歧视的兼顾
算法决策能够比人类决策更好地挖掘信息相关性,满足公共管理和公共服务中的个性化服务需求。敏感个人信息的准确性是实现算法过程控制,保证算法结果正义的前提。有观点指出,更多的敏感个人信息的获取,能够降低决策者对于群体信息的依赖,从而逐步消除歧视。换言之,算法获取的个性化信息越多,越有助于消除算法带来的歧视。这一观点的形成,与20世纪从物理学向社会学转移的信息控制理论密不可分,即强调人类通过与外界的反复交互来适应环境和改善自我,因此社会要获得一套有效的反馈机制,就必须建立行之有效的通信系统,并维护内部的价值稳定。按照控制论的逻辑,敏感个人信息保护机制如果阻断一部分信息的自由流通,可能会导致部分算法决策所必需的信息被删除,因而造成决策困难;要从结果上判定算法是否构成对部分群体的歧视,就必须获取群体类型和算法决策的关系;如果把歧视作为一种算法错误,那么就必须依靠更多能够识别主体身份的敏感个人信息的输入来提高算法的准确性,以矫正算法歧视。不过,对以人脑决策作为对象的生物学研究来说,这种判断可能是对的。但却不能理所当然地把科学模型迁入社会学领域,并以科学实验的正确性论证科学模型作为社会模型正当性的基础。信息控制论集大成者维纳(Norbert Wiener)及其相关的控制论学者自20世纪中叶以来的研究,不仅启发了计算机和人工智能的发展,而且构建起一套用以转化生物科学和社会科学的语言体系。但正如维纳自身所意识到的那样,社会现象同被观察者之间的耦合和稳定性必须被谨慎对待,社会学变量的稳定和统计、观察者对于现象的解读和影响,都将让这种贸然迁移变为“对科学性质的一种误解”。维纳对于信息控制论社会学进程的反思,对算法决策处理敏感个人信息的保护带来了一个重要启示,即隐私政策(包含敏感个人信息处理的一般禁止)与算法决策准确性并不必然存在对立,因此保证算法决策的公平并不应以放弃敏感个人信息的一般性禁止为手段,理由如下:
第一,敏感个人信息的个性化处理会产生巨大成本。因此当个性化的信息转变为可计算的变量时,算法决策这一模型化的处理过程应当是必要的,否则算法决策代替人类决策的布局就会违背合目的性和合法性的审查要求。因此算法决策处理敏感个人信息应当出于法定处理目的或者符合个人授权的前提。法律规范并不需要对所有的差异信息都保持敏感。第二,立法对敏感个人信息进行类型化,并在具体的规则中明确列举这些信息的类型,不以该信息在技术层面的独特性作为决定性因素。人的某些特征和信息当然可以被计算,但以计算结果对主体进行差异化分类和管理的措施必须合法。人类的不同群体在事实层面可能存在差异,但这并不代表法律必须以差异化规则对待群体在事实层面的不同。法治公平的一个重要体现,就是把现实中特征鲜明的个体化约为法律中无差别的主体,在设置法律规则时去除那些同法律制裁结果没有直接关系的差异化信息。第三,服务于公共治理的算法依靠获取更多敏感个人信息作为决策依据,将会导致公共决策和法律规则的指针化。法律规则如果采取完全个性化的设置,个体将会丧失对自身行为横向比较的能力,法律的教育和规范作用将会下降,法律规则调整行为决策的模式也将转变为事前决策调整模式,个体的行为将遭受事前判断干扰,这将是对自由意志的挑战。第四,敏感个人信息的一般禁止规则在两种情况下有助于算法公平:一种是保证传统决策领域对敏感个人信息的保护规则在算法决策领域继续适用,防止通过算法加剧对部分群体的歧视,保障既有的法律规则和平等原则对这些群体在算法决策领域进行延伸性救济;另一种是对敏感个人信息的保护可以有效地反对分类,算法决策不应当创造公共治理领域新的歧视,即不应该通过将歧视从一部分群体转移到另一部分群体的方式消除不平等,这主要针对的是通过关联信息取代敏感个人信息对主体进行区分的情形。第五,在个体权利维度,有主张认为保护个人信息和维护算法公平无法同时实现。这一主张混淆了算法决策公平的权利主体和义务主体。算法决策较之于人类决策,存在明显优势,比如可以区分收集信息的阶段和处理信息的阶段。算法可以阻止多个变量中的单一信息点输入错误;在机器学习技术中,算法可以帮助改变数据本身存在的偏差。在深度学习应用中,算法可以纠正未知的数据偏差。这都为将个人信息保护法律规则适用于自动化决策提供了技术保障。算法决策处理敏感个人信息时,保障算法公平反对算法歧视的义务主体是布局算法的决策者,而非敏感个人信息的来源主体。因此,敏感个人信息的保护与算法公平的实现并不必然产生冲突,算法的准确性与算法的公平性可以实现有机统一。
(三)强化敏感个人信息保护的技术理性思维
算法黑箱的存在具有客观性。但过分强调黑箱的存在会造成算法决策与传统人类决策的对立,并形成只能依靠技术来弥合二者对立的主张。算法决策与人类决策并非完全割裂的关系。算法可以隐藏和扩大偏见,让歧视拥有新的载体和方式,可以延续与检验人类决策的经验。当回答算法处理敏感个人信息应当秉承何种价值时,不应在技术理性思维与人文治理经验之间做单项选择。
在治理决策主要依靠知识的时代,人们在处理信息的过程中形成了三个防止歧视发生的经验:其一,在个体维度,人们收集信息的方式容易受到前见影响,即存在“刻板印象”或者“偏见”。当人们的精力有限而信息数量无限的时候,人类决策就会因为前见而对后续的信息进行非理性的编排。因此在人们有效地更新知识体系之前,设置接收信息的阻断程序可以防止人类决策过程中的歧视扩大。其二,人类利用机器学习算法进行决策时,数据汇集的质量会对信息阻断和过滤机制提出要求,因为如果数据训练样本存在偏差,那么训练模型就可能产生歧视。其三,从宏观的角度而言,有时单个信息节点恰好是信息决策系统中的关键性节点,因此,在对该信息节点进行控制时,不仅应考虑信息流动的节点效应,而且应考虑更为长远的社会价值的实现,比如公共算法决策如果通过导航系统指挥驾驶员长期不断绕远路而降低指挥成本、舒缓交通压力,那么该算法结果就不会带来更好的治理效能,反而会导致公众对该算法决策的不信任。因此处理敏感个人信息的公共算法决策必须考量社会公众安全并符合社会公众的合理公平预期。
人类决策中消除歧视的经验为算法决策中敏感个人信息的保护提供了可资借鉴的经验,即人类知识转化过程中反对歧视的信息规则同样可以用来规制和优化算法决策。传统的隐私政策、表达自由等信息流通规则是否适用于算法决策,取决于算法决策的类型。算法决策如果涉及敏感信息的处理,在实验阶段就应该对算法进行审查,以判断算法本身是否存在侵犯个人尊严与诱发认知偏见的情形,以防止实验阶段的算法价值观与思维模型被不恰当地运用于更广泛的用户群。算法决策技术存在的问题最终还要依靠技术来解决,但是这并不代表法律人应当放弃对敏感个人信息的保护而单纯依靠算法技术解决公共领域的算法决策问题。敏感个人信息能否完全进入公共流通领域,取决于其脱敏的程度,但是并非所有的敏感个人信息都能够通过技术实现完全脱敏,尤其是伴随着技术的进步,信息的反向可识别性加剧了敏感个人信息被泄露和滥用的风险。虽然计算科学家一直在发展保护敏感个人信息的技术,比如匿名化技术、个人信息敏感性相关因素分析技术、歧视感知和隐私感知数据挖掘技术,但是依然应当优化针对性的风险影响评估、公共决策部门的业务规范、必要合法的技术工具包和法律保护框架。技术工具或者技术标准的存在是为了保障公共算法决策中对敏感个人信息的法律保护需要,比如软件验证工具是为了确定公共决策所使用的算法自动化决策系统具有法律所要求的属性,加密承诺工具必须保证技术持续忠诚地服务于公共决策目的;还有的工具被称为零知识证明工具,主要针对科技发展进程中的解释不能情形时,确保“正确的政策被应用于正确的输入,得到规范的结果”,以规范信息呈现的方式确保对自由和公平的维护。算法黑箱的存在并不能证明算法决策与传统决策之间是对立的,也不能证明必须在法律的既定价值和工具理性之间进行排他性选择。相反,传统决策领域应对人类歧视的经验可以为算法决策处理敏感个人信息提供经验,并为敏感个人信息的保护提供更好的技术和制度支撑。
算法决策处理的敏感个人信息一旦遭到泄露,会对个人造成不可预见的风险甚至是特别严重的损害。既有立法在对技术“可能危害到的重大法益、技术不确定性、预防措施以及证明机制”的风险规制和制度建构方面做了巨大的努力,我国既有的规范体系也对个人信息进行了分类界定和保护,但算法决策中敏感个人信息保护的特殊性仍对价值融入与制度构建提出了具体要求:
第一,以“识别性”为基础的概念界定方式旨在赋予个人信息一个相对静态和封闭的空间,以给个人信息权益的私法救济留有余地,并对敏感个人信息进行特别保护,但是算法决策突破了这一封闭性,其拓展了信息处理规模、提升了数据处理效率,构建了共享数据库,推动了加密与解密技术的进步,可实现反向可识别与可复制的数据挖掘,这些都对敏感个人信息保护提出了新的挑战;第二,以《个人信息保护法》为核心的法律规范虽然对敏感个人信息与一般信息进行了区分,但是并没有专门针对自动化决策领域中敏感个人信息保护作出特别规定;第三,在具体保护路径上,立法设定个人“知情同意”权利的行使模式,可使得经知情同意的敏感个人信息处理行为合法化,这一模式延续了个人信息控制论和自决权的范式。敏感个人信息在算法决策中扮演最为重要的角色时,其本身具有两种价值,一个是作为个体权利的价值,一个是作为群体利益的价值,而如何妥善地处理敏感个人信息的群体价值,是一个需要认真对待的难题。
(一)算法决策处理敏感个人信息时的识别性与规范性
我国立法对个人信息的强调突出体现在对“识别性”的强调方面,如《民法典》建立了“个体识别+结合识别”模式的个人信息界定方式,《个人信息保护法》建立起了“已识别+可识别”模式的个人信息解释方法。我国个人信息保护以“识别性”作为逻辑出发点来构建相关法律制度,“识别性”强调的是已经发生或者可能发生的状态,多是一种事实界定方式。敏感个人信息作为一种特殊类型的个人信息,同样具有信息“识别性”属性,敏感个人信息的保护较之于一般个人信息的保护更加强调规范属性。但信息的可识别性不是判定信息的自然属性和社会属性的唯一标准。信息科学、信息技术和信息基础设施对解释信息的自然属性产生了深远影响,但对信息的社会属性的解释离不开伦理价值、文化认同以及规范界定。同时,立法规定“识别性”不是为了限制信息主体的信息自决,而是出于信息自决的需求,严格限制建立在不同事实基础上不同类型个人信息的流通。在公共决策领域,敏感个人信息较之于一般个人信息的流通更应当受到严格的限制。一些人工智能引发的社会公平问题,并不是因为算法本身的歧视导致的,而是算法鸿沟作为一种知识沟和信息沟在社会层面客观存在导致的结果,如行为人不能妥善地理解或者使用算法。再比如能否有效地预防未成年人对网络的沉迷,关键在于能否对未成年人的信息进行准确地收集和识别。使用自动化算法决策的公共管理主体虽然不能依靠规则的制定解决所有的歧视问题,但算法的初衷应当是消除业已存在的先天的不平等或者制度的不平等,而非规避法律规定,为因算法程序设计的不足导致的算法结果歧视寻求抗辩的理由。算法决策在借助敏感个人信息处理作出决策时,应分别基于不同的立法目的,审慎地识别和筛选敏感个人信息。
表1 敏感个人信息的筛选
对算法决策过程中的信息筛选之所以做以上三个阶层的区分,是因为被筛选的敏感个人信息涉及主体不同的身份界定与行权范围。第一阶层的信息处理,是对自然人身份的一种识别,这一识别之下关涉两种关系的区分,一个是识别自然人的社会关系,一个是识别自然人的交易关系。第二阶层和第三阶层的信息识别是对自然人公民身份的一种识别,关涉公民的个体利益与社会群体的利益两种利益。在对个人信息进行分离和筛选的过程中,无论是自然人个体还是公权力主体都应遵循个人信息保护规则,比如涉及个人信息的约定不得违背强制性法律规定,法律对公民信息实体权利的限制不得侵犯宪法所赋予的公民的基本权利,对公民基本权利的限制必须进行合法性审查等。公共决策以人工智能算法对信息进行识别和筛选,同样应满足上述三个阶层的承诺和合法性规定。
(二)构建算法决策敏感个人信息的一体化法律制度体系
个人信息法律属性的复杂性、牵涉主体诉求的多元性、算法处理方式的可变性,决定了对算法处理敏感个人信息的法律规制必然涉及多种法益。未来,建立协调公私利益的实质标准和操作程序应成为敏感个人信息保护法律制度完善的重要议题。在此过程中,需要重点解决两个问题:第一,如何处理算法规制和敏感个人信息保护两种规则的有限性之间的关系;第二,如何实现公法规制和私法规制的协调。
2016-2019年,围绕着算法决策在教育资源分配中的使用争议,法国产生了一系列的诉讼。法国宪法委员会(Conseil Constitutionnel)根据2018-765DC决定,作出政府不能使用机器学习算法进行自动化决策的合宪性解释;由于“法国的行政诉讼采用判例法,行政法以行政法院的判例确立的规则体系为主体”。这一解释的里程碑意义在于划定了行政主体在使用算法进行自动化决策时不能突破既有的合法性要求,不能通过“避免算法自行更改其应遵循的规则”,在宪法层面划定了算法决策规则与敏感个人信息处理规则两套系统的先后顺序。行政法的重要任务是“审查行政行为事实问题和法律适用,审查裁量权滥用和越权”,作为专门化的学科,保证行政法的发展同国家权力保持一致,不能因为算法决策影响信息处理义务的履行,也不能因为算法决策影响个人信息所享有的私密利益。法国宪法委员会的决定旨在说明算法解释不能作为一种单纯的技术现象,其被用作决策时,不能成为免除个人信息保护义务的事由。
欧盟构建了一个公私一体、立法多元的法律体系用来保护敏感个人信息:在条约这一层面为个人信息权利提供了宪法层面的法律依据;在公约这一层面,明确“在公共和私人领域”给予个人信息处理同等保护、进一步扩展个人敏感数据目录,从立法目的层面给予敏感个人信息处理基本自由的保障;在数据和指令层面,欧盟《通用数据保护条例》沿袭了《欧盟个人数据保护指令》时代确立的“人性尊严自治”立法模式,尤其是第22条算法规制条款充分赋予数据主体各种延伸的新型权利,GDPR第28条规定了公共决策外包后也无法逃脱对敏感个人信息保护的责任。
算法决策对个体的识别、评估和分类以及在此过程中可能造成的故意歧视、统计偏差、过度识别和有缺陷的判定,都与敏感个人信息的使用相关。算法决策的公平问题非常复杂,从实质公平的角度而言,算法程序很难确保每一个公民的信息都被平等地收集和处理,导致这一问题的原因很多,有的是因为社会成员表达能力不足造成的,有的是因为数字鸿沟造成的。能够实现结果平等的算法设计也可能忽略个体处理自身信息的差异化需求,算法决策如果侧重于多样性的个体信息收集又可能造成偏见效应。因此,公权力并不能解决算法决策带来的所有不公,但是政府必须遏制公民的敏感个人信息被应用于“有害的算法”。传统公共治理利用算法决策的说明义务,被以“鱼缸透明度”和“合理透明度”两种方式加以区分。“鱼缸透明度”是指决策者须说明自己利用算法掌握了哪些信息,利用这些信息在做什么;而“合理透明度”则要求决策者应说明自己所使用的信息的有用性,也就是决策者必须对算法决策的合理性予以说明。上述两种透明度义务,决定了涉及基本权利的行政决策应当满足目的合法性、行为必要性、结果严格符合比例原则的要求。公共算法决策处理敏感个人信息,除了应当达到上述两个透明度要求,还必须进行以下三个层面的判断:第一,确定算法用以决策而收集的敏感个人信息是否准确;第二,决策行为的风险,也就是需要确定使用这些敏感信息可能出现的错误以及在个体间使用敏感个人信息进行决策可能产生的公平问题;第三,决策责任的承担。其中,敏感个人信息收集的准确性是算法决策或者技术发展可以解决的问题,而决策风险与决策责任,也就是算法处理敏感个人信息的规则,应当遵循公开的、一致的个人信息保护规则,而这一规则必须交由法律予以规定。在传统的公共治理合法性判断中,这两种决策透明的义务没有办法完全分离。
在社会福利分配方面,立法应借助技术法律规范,从规范机器学习的算法部署、算法透明和算法决策责任承担三个角度确保算法决策公平。我国《电子商务法》中有关管理关系的规定和《数据安全法》中“政务数据的安全与开放”专章,都立足于提高政务服务的响应能力,提升算法决策系统内部和外部的信息粒度;现有的刑法在完善罪名体系方面注重把信息和数据作为犯罪对象,强调对信息非法获取而非滥用行为的规制。这些规范策略延续了技术法律规范的路径,同时对敏感个人信息保护的完整性、行为规制类型的全面性提出了更高的要求。此外,当算法决策敏感个人信息过程中遇到群体隐私失控、弱势群体行权困难、隐私保护群体差异与公共管理参与限制等问题时,敏感个人信息的保护问题已经超越了单一法律的范畴,有待通过基本权利的保护来协调整个法权结构。
(三)构建算法决策敏感个人信息中基本权利的动态保护制度
算法已深刻影响了数智化社会人们的生存和生活方式,既有的法律理论与制度逻辑在“后设机制一体化”进程中展开。有学者提出,传统的基本权利制度在应对算法决策处理敏感个人信息这一技术与数据叠加发展的场景时,已不具有适应性。为回应这一观点,有必要对基本权利的形式功能和价值功能进行区分。权利规则在立法中具有体现立法目的、凝聚社会共识和充当评判标准的特殊功能。算法决策中仍有保护个人权利的必要。权利话语既是一种立法技术,也是一种立法目的。作为目的的权利话语不能被法律所忽略,因为我国“实现对算法为中心的数智社会规制……其目的在于构建促进和保障人们美好生活的法律秩序”。权利具有凝聚社会共识的社会功能,一是保障法律承认规则的形成,也就是可以支撑立法的合法性论证;二是保障法律的实施,增强法律的实效。基本权利作为一种话语体系,是对人工智能时代敏感个人信息保护规则设立合理与否进行评判的重要标准,有助于增强我国算法立法和个人信息保护立法在国际标准塑造中的主动性,为法律制度的完善提供重要指引。
保护敏感个人信息,既是为了更好地凝聚社会共识,也是为了对公民基本权利更好地进行保护:第一,敏感个人信息在公共领域具有隔离隐私、保障平等与实现非歧视的功能;第二,敏感个人信息确立了个人免受政府监管的区域,这一制度意义重大;第三,保护敏感个人信息,是为了避免出现寒蝉效应,为信息汇集创造良性的文化土壤。算法能够预测个人或者群体的行为,敏感个人信息保护发挥着信息自主与自决的闸门功能;算法决策通过对个人信息利益的维护,可实现对自由的保障。以数据分析为基础进行的公共决策,可能不涉及个人事务,但可能关乎个体和群体的平等,因此信息保护制度就必须排除歧视性的个体识别,以实现对群体性平等的保护。当然,强调敏感个人信息保护在算法决策领域的特殊性,可能会影响针对个体层面信息的收集与获取,对算法决策所需要的大数据投放进行限制;但忽略对敏感个人信息的保护,也可能会限制思想的表达,并对决策反馈机制造成不良影响。欧盟GDPR的数据保护实践,曾在科技领域引发了基本权利保护模式等于强监管立法和僵化执法的担忧。但事实上,从德国的“卡尔卡决定”开始,基本权利动态保护就成为一种为应对不特定风险而协调立法、执法和技术发展的有效机制——为适应科技的发展,“允许概括性和弹性的立法;及时更新自身的风险措施并进行事后改善的行政”。对人工智能算法处理敏感个人信息进行规制时,基本权利的动态保护制度尤为重要,这一保护模式通过义务的抽象性赋予公共决策应对风险的灵活性,并允许法的明确性、安定性和信赖利益被部分牺牲,但其最终目的是更好地服务于对公民基本权利的保护。为了更好地对基本权利进行动态保护,就应当灵活设计算法的布局,将人工智能作为应对风险和监管的综合性手段,合理配置各方的权利义务。
对算法决策敏感个人信息时的基本权利的保护,不仅应确立一套衡量规制新问题的标准和价值体系,更为重要的是可以在算法技术准则和既有的主体、行为、关系、制度和权力规范之间建立行之有效连接的桥梁。算法决策处理敏感个人信息时,政策制定(决策依据)、具体的系统设计(决策过程)和利用敏感个人信息进行决策的质量(决策效果)都要受到评估。这意味着算法决策应满足宏观的价值和程序要求,把政策性的决定与作为优先事项的个人敏感信息保护进行挂钩,让赋权、参与和救济变得切实可行。因此强调对算法决策处理敏感信息中的基本权利保障,能够有效矫正敏感个人信息保护中的不平等或者差异化问题,填补知识、信息、渠道和品位区隔造成的数字鸿沟,实质性地保障社会公平。在强调对算法决策处理敏感信息中的基本权利保障时,还必须防止相关评判标准的降级,比如算法透明度要求、算法的可信赖要求、算法可解释要求,都不能因为基于保障基本权利的要求而降级。
面对人工智能算法决策技术的进步,学界有两种流行观点:一种观点认为,美好的未来需要代价,敏感个人信息被收集、处理、披露甚至是泄露,就是我们享受精准与个性化公私服务的代价;另一种观点强调,技术取代与技术引领将是不可知和不可控的。这两种观点其实都属于工具理性观。面对神秘的算法黑箱和强大的技术理性,人类决策经验是否应该让位于算法主导?敏感个人信息权利保护是否已经行权无能?当我们重新审视算法决策对敏感个人信息的处理问题时,可以清晰地发现其背后隐藏的双重价值导向,算法进行个性化识别,也凝聚社会化共识;算法解释权诞生于信息不对称,但是可以弥合信息不对称引发的群体分离;人类决策的价值型主张和知识性经验同样可以为算法反歧视制度所继承,技术理性也并非仅为说明算法黑箱的客观存在,而在于确保在复杂的技术场景中,算法的决策能够有效地捍卫宪法所赋予人的基本权利。技术理性与人文关怀并不是割裂或不可调和的,能够吸纳法律规范和价值的技术理性思维,才是应当被倡导的。在算法决策处理敏感个人信息时,应强调对个人敏感信息过程中基本权利的动态保护。
《法律科学》是由西北政法大学主办的、面向国内外公开发行的学术性刊物。《法律科学》主要发表法学学术理论文章,辟有法律文化与法律价值、法律思维与法律方法、部门法理、法律制度探微、科技新时代法学等栏目,注重学术性、专业性、知识性。本刊列入中文核心期刊、法律类核心期刊、中文社科常用期刊、法学类最重要的核心期刊、中文社会科学引文索引来源期刊(CSSCI)。
1. 私有智库:单篇对话与向量检索的智能融合
责任编辑 | 郭晴晴
审核人员 | 张文硕 韩爽
本文声明 | 本文章仅限学习交流使用,如遇侵权,我们会及时删除。本文章不代表北大法律信息网(北大法宝)和北京北大英华科技有限公司的法律意见或对相关法规/案件/事件等的解读。
郑志峰:人工智能产品责任的立法更新 | 法律科学202404
张凌寒:中国需要一部怎样的《人工智能法》?| 法律科学202403
赵精武:人脸识别技术应用的利益权衡与合法性认定 | 法律科学202401
丁晓东:全球比较下的我国人工智能立法 | 比较法研究202404
丁晓东:公开个人信息法律保护的中国方案 | 法学202403
关注下方公众号,获取更多法律信息