本期推荐一篇2024年5月发表在NBER上的论文《在选定数据中构建非歧视性算法》。现代司法系统中,法官在决定是否释放被告时,常常依赖于算法生成的风险评估。这些算法通过分析被告的历史数据,预测其再次犯罪或缺席审判的可能性。然而,这些算法往往会因训练数据中的偏见而导致对某些种族群体的不公平对待。本研究旨在开发和验证一种新的方法,能够在选择性数据的环境中,构建出不含种族歧视的算法。选择性数据是指只有一部分数据被观察到,而这部分数据并不能代表整个群体的真实情况。
研究方法非常详细和复杂。首先,研究者定义了研究设定,假设有一个个体群体,通过三个变量区分:是否属于保护群体(Gi),包含多个可观测特征的向量(Xi),以及感兴趣的结果变量(Y*)。在这种设定下,他们使用准实验设计,通过法官的随机分配来消除选择性观测的偏差。具体步骤包括:1)设定一个模型,其中Gi表示种族,Xi包含其他人口统计和犯罪记录信息,而Y*表示未被完全观测到的行为潜力;2)利用随机分配的法官来生成准实验变异,估计不同法官对被告释放的影响;3)通过调整每个算法输入的残差,使其在相同行为潜力下没有种族差异,来构建非歧视性算法。这一步骤确保了任何基于这些预处理输入的线性算法都不会存在种族歧视。此外,研究者还提出了其他处理和后处理方法,如直接在算法预测过程中最小化种族差异的均方误差,或通过调整预测结果来消除种族歧视。
研究结论表明,通过上述方法构建的非歧视性算法不仅在消除种族歧视方面表现良好,而且在一定程度上提高了预测的准确性。具体来说,研究发现,传统算法对黑人被告的风险预测比白人被告高出约2.5个百分点,而新算法在消除这一差异的同时,还能减少预测误差约12.1%。这表明,通过预处理、处理和后处理技术,可以在保证公平性的同时,提高算法的整体性能。
总体而言,这篇论文为在选择性数据环境中构建非歧视性算法提供了新的方法和实证证据,对预审系统中的算法应用具有重要的实际意义,并为其他高风险预测领域的公平算法设计提供了有益的参考。
唧唧堂学院推荐订阅