性侵犯罪中的同意问题,不妨交给AI

2024-09-30 17:30   英国  

全文约3000字,阅读约15分钟

认定同意从谁出发

罗翔老师作为研究性侵犯罪几十年的专家,曾经多次在公开课程中表达了如下的立场:

这里的“不同意”,显然应该站在被害人的角度去思考,而不应该站在犯罪人的角度去思考。这也就是为什么很多国家都采取了所谓的“不等于不”规则。

这种立场乍看非常合理,但是从基本的法律原则经过简单的逻辑推理之后,竟然会得出看似与之截然相反的结论:

1.     故意犯罪是指明知自身的行为会产生危害社会的后果,而希望或放任其发生。

2.     性侵犯罪是故意犯罪。

3.     由1-2,犯罪人构成性侵犯罪,需要其明知自己的行为是性侵,会危害社会。这当然包括明知被害人不同意。

4.     任何犯罪人都不具备“读心术”,被害人内心不同意并不意味着犯罪人“明知”其不同意。

5.     由3-4,认定性侵犯罪必须从犯罪人角度出发,认定其“明知”被害人不同意

上述两种立场分别要求从犯罪人和受害人角度认定同意,看似完全相反,但仔细分析就会发现两者说的不是同一回事:

6.     法律上认定犯罪人“明知”当然不仅仅依靠犯罪人认罪,也可以通过证据推定犯罪人“应当明知”
“应当明知”的标准是具有正常认识和判断力的一般人在同样的情境中能够认知


对于犯罪人使用了暴力和胁迫手段的情况,显然也属于“应当明知”的范畴,以下就不讨论了。但是在没有证据证明暴力和胁迫的情况下:

7.     犯罪人判断被害人是否同意的唯一依据是被害人当时的语言和行为,而非思想。(这点体现了从犯罪人角度出发)

8.     由6-7,如果证据能够证明被害人当时的语言和行为,则可以判断犯罪人是否“应当明知”被害人不同意。

9.     在8中从被害人行为到犯罪人“应当明知”的推定过程中,应当站在被害人的角度,考虑在当时情境下,被害人可以选择什么样的行为,其中哪些行为足以使一般人认识到其不同意。


综上,综合两种不同的思路可以发现,性侵犯罪中认定“被害人不同意”的实质是:

被害人在当时的语言和行为足以使得一般人认知到其不同意。

“同意AI”能减小争议吗?

 把认定同意的问题详细拆解之后,可以发现其和AI的工作原理十分相似。以第一代基于AI的图像分类模型AlexNet (1) 为例:

1.     AlexNet的输入数据为图片。

2.     AlexNet的输出数据为:在1000种可能的分类中,该图片属于每一种分类的概率。

3.     训练AlexNet的数据集为:通过大范围网络调查,人工分类后的120万张图片。换言之,除了对应输入的图片和对应输出的分类结果,不需要其他数据就能训练AlexNet。

市面上处理语料数据的大语言模型也有类似判断情绪色彩和文风的功能,这种功能比ChatGPT这类生成式语言模型要简单得多。

与此相对应地,从被害人在当时的语言和行为推断其是否同意,是一个类似的数据处理过程:

1.     不论是法官还是AI模型,输入无非是图像证据或者言辞证据。

2.     输出是在“同意”和“不同意”两类中属于“不同意”的概率。对于AI模型而言,可以额外输出一个误差(置信区间)来表示输入证据的证明力。对于法官而言,这种误差体现在其判断被害人不同意是否能“排除合理怀疑”。

3.     如果要训练一个“同意AI”,需要大量的案例并人工分为同意和不同意两类。同样地,审理性侵犯罪案件的法官同样需要指导性案例的训练(当然经过人工分类)。

以上可见,判断性侵犯罪中的同意问题,如果存在一个经过合适训练的AI模型,是可以交给AI的。问题在于,既然真实的法官也能判断,为什么要交给AI呢?

最重要的原因在于,性侵犯罪和其他犯罪相比具有很大的特殊性:需要从他人的行为推断他人的心理状态,心理学上称之为“心智理论”(Theory of Mind)。基于他人同样的行为,不同的人对于他人心理状态的推断可能大相径庭,这当中既有个人所处社会环境的影响,甚至也有遗传因素(2)。这也是性侵犯罪案件容易产生舆论争议的根本原因。在这种情况下,即使单个法官(乃至12人的大陪审团)试图从“一般人”的角度从被害人的行为推断其是否同意,也不能免受上述因素的影响。因此无从得知法官是否真的代表“一般人”。

与此相反,一个AI模型不论如何复杂,其输出本质上还是由训练模型的数据集决定的。如果训练“同意AI”的数据集覆盖的人群足够广,那么让整个训练集观点的总和代表“一般人”总比单一的裁判者更有说服力。更重要的是,在不同的地方运用同一种“同意AI”,可以很大程度上消除不同法官裁量标准不同的影响

因此,在法官断案时常产生争议和“同案不同判”的情况下,开发一个合适的“同意AI”至少是一种应当严肃讨论的选择

这种“同意AI”应当具备的特征可以初步确定:

1.     输入被害人和嫌疑人以及其他各方的言辞证据和可能的图像证据。

2.     输出一个0-1之间的数值,0代表不同意,1代表同意。同时输出一个误差区间,证据越充足,误差越小。

3.     准确过滤出当时而非事后的行为和语言;当同一人多次提供的证言相互矛盾时,减小其权重(本质上这是在要求数据集中的人们作判断时遵循该原则)。

用AI不代表做“法律机器人”

对于以上提出的“同意AI”,一个最有力的批评意见是机械司法,乃至让机器管理人类的问题。在此再次引述罗翔老师的观点:

法律不是机器人,我们的法律人也要拒绝做法律机器人。

但是,运用上述“同意AI”真的代表做“法律机器人”吗?至少有四个因素是掌握在人类手里的:

1.     最本质的因素是,训练该模型的数据是掌握在人类手上,代表人类的集体智慧。

2.     对于“同意”的认定标准仍然是法官裁量。例如,0代表绝对不同意、1代表绝对同意,则可以认定0.5以下属于不同意。如果出于保护被害人的考虑,也可以认为0.6以下都属于不同意。

3.     证明标准也由法官裁量。例如在输出误差区间时,可以认为95%的置信水平(p < 0.05)就足以排除合理怀疑。如果为了“严打”性侵犯罪,也可以采用90%的置信水平(在同样的输入证据面前,置信水平越高,误差区间越大)。

整个误差区间在2中的认定标准以下时,才能认定被害人不同意。这是为了遵循无罪推定的基本法律原则

4.     同意只是性侵犯罪的一个要件,其他各要件仍然需要法官自行判断。


综上,上述“同意AI”与其理解为一个“法律机器人”,不如理解为一种语料鉴定——和血液酒精浓度鉴定类似,上述“同意AI”的输出结果只能证明案件的一方面事实,而且具体怎么利用该结论还是依靠法官决定。

另一种有力的批评意见在于,从法官的角度看,审理任何犯罪都需要从嫌疑人的行为推断其是否具有主观故意的心态,和上述推断被害人是否同意似乎并无区别。那么是不是所有犯罪都需要运用AI来审判呢?

这种意见其实彰显了性侵犯罪的特殊性。对于其他犯罪而言,判断嫌疑人的主观心态可以依靠法律的推定而无需直接推断。如果嫌疑人行为经验上高概率导致危害后果,则应认定故意,反之则认定过失。换言之,可以根据客观事实之间的联系推定嫌疑人的主观心态。但是在性侵犯罪中,根据被害人的行为判断其心态则没有这种客观事实之间的联系为依据,法律也不能规定被害人有哪些行为就直接推定其不同意。需要直接从客观的行为向主观的心态直接推断,是性侵犯罪独有的。因此,上述对于AI全面接管刑事审判的担忧是多余的。

结论

以上论证说明了运用AI判断性侵犯罪中的同意问题至少是一种可能的选择。在此基础上,下一步就应当讨论如何才能采集到一个具有代表性的数据集,以训练该AI的问题。这当中涉及到隐私信息传播的问题、可能公开传授犯罪方法的问题,以及样本质量的问题。尤其是对于同一个案例观点可能两极分化的情况,训练这种“同意AI”将会遇到很大的实际困难。但是,在现有的司法体系下,无法改变由少数裁判者对于“同意”这一关键事实作出个人差异度较大的判断之现状。因此开发“同意AI”这条路,如果能推进司法公平的进步,遇到再大的困难也应当走下去。

参考文献

  1. A. Krizhevsky, I. Sutskever, G. E. Hinton, ImageNet classification with deep convolutional neural networks. Commun. ACM 60, 84–90 (2017).

  2. M. J. Lucht, S. Barnow, C. Sonnenfeld, I. Ulrich, H. J. Grabe, W. Schroeder, H. Völzke, H. J. Freyberger, U. John, F. H. Herrmann, H. Kroemer, D. Rosskopf, Associations between the oxytocin receptor gene (OXTR) and “mind-reading” in humans--an exploratory study. Nord. J. Psychiatry 67, 15–21 (2013).

Meditatio
在疯狂中沉思, 在沉思中疯狂. Sanitas insana, Sapientia stulta.