报告信息
Advancing Data Equity: An Action-Oriented Framework
报告来源:WEF
发布时间:2024年9月
内容简介✦
1
定义数据公平
尽管数据公平的重要性日益凸显,但其在政策圈和学术文献中却缺乏一个明确且被广泛接受的定义。也许最广为人知的定义是将数据公平定义为应用于计算机科学和机器学习的社会公平概念,并确定了数据公平的各个方面,包括表示公平、特征公平、访问公平和结果公平。但这种模糊性不仅阻碍了进展,而且还有可能加剧利益攸关方试图解决的不平等问题。此外,随着技术进步的加速和数据变得越来越重要,数据公平面临的新挑战不断出现。
认识到这一关键差距,全球未来委员会为数据公平制定了一个全面的定义:数据公平是尊重和促进人权、机会和尊严的公平数据实践的共同责任。数据公平需要采取战略性、参与性、包容性和主动性的集体协调行动,以创建一个基于数据的系统促进所有个人、团体和社区获得公平、公正和有益结果的世界。它认识到,数据实践,包括收集、整理、处理、保留、分析、管理和负责任地应用由此产生的见解,对人权以及由此产生的对社会、经济、自然和文化资源和机会的获取产生重大影响。
数据公平考虑贯穿整个数据生命周期,例如:如何收集和构建数据(输入数据公平性);如何提供数据(数据访问公平性);如何使其具有代表性和与使用环境和目的相关(数据表示公平性);如何处理和解释数据(过程或算法数据公平性);如何用于生成和告知结果(结果数据公平性);以及如何在为其做出贡献的个人和社区之间分配和共享其价值(数据价值公平性)。
可以通过在数据生命周期的不同阶段采取纠正措施和主动措施来提高数据公平性:
纠正措施包括解决数据集中的历史(以及当前或潜在)偏见,例如对边缘群体的偏见描述或代表性不足,以及赋予个人和社区控制自己数据的能力(通过选择加入或选择退出机制),以确保他们个人和集体的能动性、自主性和隐私权。
积极行动包括让数据中所代表的个人参与定义数据;采用能够识别、代表和参与不同群体的收集方法;促进开放和透明的数据共享;开发利用数据的包容性、参与性系统,确保受影响的人有发言权;验证这些系统是否产生公平公正的结果;并保证数据贡献者从其使用产生的价值中受益。
2
实现数据公平
在一些早期工作的基础上,拟议的数据公平框架由 十个数据公平特征组成,分为三大类:数据、目的和人员。数据类别的评估与其敏感性和可访问性特征有关;目的类别的评估与其信任、价值、原创性和应用特征有关;而人员类别则与其关系、专业知识、问责制和责任特征有关。
一、数据
检查数据分析中数据输入的各种特征,包括机器学习和genAI,可以改善结果并确保在流程早期解决偏见。
敏感性
关键问题:数据危害潜力:数据的使用可能导致哪些风险或负面影响?隐私考虑:数据中的个人信息如何受到保护?监管:哪些法律框架管理数据的收集和使用?文化敏感性:数据如何尊重和影响不同的社区、文化规范和价值观?商业敏感性:数据中的机密商业信息如何得到保护?
建议采取的措施:与隐私专家一起审查敏感数据要求;采用透明的发布策略;实施隐私和潜在危害评估;确保数据访问和重复使用权限与本土框架保持一致;绘制所有潜在结果,并针对所有可能的负面结果制定缓解策略;为所有受影响的利益相关者群体绘制结果图。
可访问性
关键问题:公平性:数据收集、分析和输出是否会在受影响的社区中产生公平的结果?开放获取:数据、数据处理所使用的算法以及数据输出的可访问性和透明度如何?共享数据的能力:如何共享数据、以何种方式共享以及由谁来决定?互操作性:数据是否可互操作,以确保产生公平结果的准确性、完整性和一致性?数字包容:数据收集、分析和输出如何使所有个人和社区受益?无论能力如何均可访问:可以采取哪些流程来确保每个人都可以访问数据?数据主体(个人和集体)的访问:数据源的可访问性如何,数据主体(个人/集体)是否知情,以及他们是否参与数据收集活动?
建议采取的措施:鼓励协调和参与;制定开放代码政策;确保个人无论能力如何都可以访问数据,尤其是相关数据主体(个人/集体);通过使用现有的协调标准,确保数据可互操作;意识到代表性不足的社区及其语言的数据稀缺性;确保相关社区能够查找、访问和阅读感兴趣的数据。
二、目的
数据分析需要明确的目的。如果没有明确的目的,分析可能缺乏公平性和影响力,甚至造成伤害。
信任
关键问题:透明度:数据实践和政策的透明度如何?偏见:在整个数据生命周期中,使用什么流程来识别偏见?可解释性:数据流程(包括收集、分析、输出和基于输出的政策决策)在多大程度上可以清晰解释?准确性:使用了哪些方法来确保质量、完整性和一致性?控制:使用哪些方法来确保整个流程的检查?
建议采取的措施:使元数据可用且易于理解;根据公平数据集实施严格的基准测试;确保训练数据代表受系统影响的人群;嵌入模型和系统的可追溯性和问责制;披露非人类互动;向本土社区披露本土数据;持续监测危害。
价值
关键问题:人权:数据收集、分析和输出是否尊重并促进人权?公正:数据的价值是否得到公平公正的考虑?利益共享:谁从数据产生的价值中受益,这些利益如何分配?理解:在数据使用过程中,是否理解文化和社会规范并征求社区的意见?可持续福祉:数据产生的输出是否有助于长期社会和环境福祉?对谁有价值(个人和集体):谁决定数据的价值,谁获得数据?
建议采取的措施:关注人类价值观和偏好;提高公众对人工智能能力及其局限性的认识;确保数据主体(个人和社区)在价值确定和累积中发挥作用;确保土著人民和其他弱势群体确定其数据的利益;在收集土著人民和其他弱势群体的数据时与他们建立关系;在征得同意的情况下以文化适宜的方式收集与土著语言和世界观相关的数据。
应用
关键问题:适当性:数据是否适合其预期用途?准确性:数据是否被准确使用并评估为与其用途一致?特异性:数据是否足够具体,适合预期用途?代表性:数据集是否代表其特定用途以及受结果影响的人群(无论是在个人层面还是社区层面)?稳健性:数据集是否具有足够的大小和规模?元数据可用性:元数据是否完整、适合用途且可访问?
建议采取的措施:采用沙盒流程;开发全面的多层次测量框架;表明数据的代表性;利用土著和特定文化的标识符;进行数据需求评估;启用特定文化的元数据字段。
创造力
关键问题:可审计性:是否已保存文件以确保分析过程可审计和/或审查?出处:是否可以追溯数据的来源、旅程和使用权?归属:是否需要归属源数据和贡献者?致谢:输出中是否承认源数据集和贡献者?作品衍生性:数据来源是否独特,还是数据用于新用途?
建议采取的措施:确保内容的可追溯性;建立精确且共享的术语(包括特定文化的元数据);促进公平的归属,包括确认和作者身份。
三、人员
在整个数据生命周期中保护个人的数据权利对于确保数据的收集和使用造福人民和社区至关重要。
问责
关键问题:安全性:如何保护数据免遭未经授权的访问、使用或泄露?安全:有哪些协议可以防止数据使用造成的危害?可审计性:是否对开发过程和相关治理决策进行了清晰的记录?控制:谁对数据拥有决策权以及如何使用数据?所有权:已完成哪些数据所有权评估?权限:信息是在什么权限下收集、使用、共享和存储的?使用权:如何获得和记录使用权?访问权:是否有方法让个人访问其个人和敏感信息?利益权:是否确保所有利益相关者共享利益?目的限制:对数据的使用和重用方式是否有限制?参与:利益相关者、个人和社区如何参与数据相关决策?
建议采取的措施:为数据主体(个人和社区)制定数据权利、所有权和利益共享框架;制定实施和审计这些框架合规性的情境化方法;实现用户对人们数据的反馈和审计;确保社区批准输出结果。
责任
关键问题:及时性:是否有控制措施来确保数据保持最新并定期更新?合法性:哪些法律、法规和标准管理所使用的数据类型?道德:在数据实践中应考虑哪些可能损害个人或社区的道德问题?协调:如何管理冲突并协调不同背景下的数据实践?全球标准:在为多个地点进行设计时,将使用哪些全球标准,如何处理需求的变化?
建议采取的措施:实施伦理影响评估;实施分步审查;确保透明的道德审批流程;确保获得社区许可的流程透明;实施保障措施以保护标记数据的个人的心理健康,特别是当数据有害时;向社区成员支付生活工资以补偿他们的时间和专业知识。
专业知识
关键问题:多样性:数据团队如何代表不同的群体和观点?他们是否接受过适当的多样性、公平性和包容性培训?资源:需要哪些专业知识?社会文化专业知识:是否咨询过受影响的文化和社会成员?
建议采取的措施:在整个过程中聘用包括红队在内的多元化团队;资助培训和教育;支持社区能力建设;确保受影响的社区成为结果评估的一部分。
关系
关键问题:使用权:谁有权使用数据以及如何使用?访问权:谁可以查看、访问或获取数据以及由谁来决定?受益权(个人和集体):结果是否会对受影响的个人和/或社区有益?知识产权(IP):在使用数据或从信息中产生新见解时需要考虑哪些知识产权保护?本土文化知识产权(ICIP):如何保护数据中的本土知识和文化表现形式?公共领域:如果数据是在公共领域获得的,需要对来源/先前使用进行哪些确认?目的:数据是否按照最初设计的目的使用?
建议采取的措施:适应不断发展的创造力和知识产权格局;制定与数据主体(个人和社区)共享利益的框架以及实际实施框架的方式;采取战略来承认 ICIP 确保承认数据主权和本土数据主权;确保承认本土人民和其他社区的 FPIC(自由、事先和知情同意)权利。
如何获取报告?