▲ 图片来源于网络
- 在刑事诉讼中,“口供为王”虽然仍然是主流,但随着信息技术和物证技术的发展,很多新的科技成果也逐渐纳入刑事证据序列中。例如在实践中,司法官会依赖各种鉴定。
- 但是,从实践中看,各类鉴定机构良莠不齐,加之鉴定本身具有一定的秘密性、专业性,而司法官过于信赖鉴定机构的背书,这也致使辩护人在辩护过程中,对鉴定类证据的质证,必须有足以推翻鉴定真实性的意见,否则关于鉴定意见的质证,并不会对案件产生实质性影响。
- 可是,实际上作为科学证据之一的鉴定,由于受到诸多因素的影响,不可避免存在着非客观性的风险。
本文是笔者在办案中的记录与思考,欢迎法律同仁批评、斧正。广东瀛双所刑事部专职律师
其实很早之前,我国就已经开始使用声纹鉴定,2016年北京市二中院在审理的(2016)京02刑初116号刑事案件,就是用技术侦查与声纹鉴定结合的方式,最终认定被告人犯贩卖毒品罪,判处死刑,缓期二年执行。但是,声纹鉴定更多是散见于涉毒犯罪中,例如,最高人民检察院发布第四十六批指导性案例(刑事抗诉主题)之二:刘某某贩卖毒品二审抗诉案,也是通过声纹鉴定书等证据印证刘某某具有贩卖毒品的主观故意和客观行为。但,由于网络诈骗的猖獗,同时结合近些年的司法判例,声纹鉴定逐步扩散到电信诈骗类型的犯罪,例如安徽省合肥市中级人民法院审理的(2017)皖01刑终513号、乐清市人民法院审理的(2023)浙0382刑初1721号等等。然,随着人工智能配音科技的发展,例如,语音深度伪造,使用人工智能技术对人的声音进行模仿和还原,可以为失声患者重建“声音”,也可用于给搞笑视频配音,在医疗和娱乐等领域具有极大的发展潜力和应用价值。但同时,这也就意味着,声纹鉴定,尤其是涉及同一性鉴定的准确性,可能会大打折扣。在司法鉴定实践中,通常以基于经验知识的专家检验为主,以基于定量分析的计算机鉴别为辅。然而,对深度伪造语音的鉴伪研究却恰恰相反,主要集中在计算机自动鉴别上,这一缺失无疑将会对伪造语音的鉴伪研究和实践带来不利影响,因此,尤其是在案证据本身先天不足的情况下,司法官将声纹鉴定作为主要证据,从而对被告人定罪处罚时,还是应当慎重。▲ 刑辩旅拍,与本文无直接关联(乔治律师 / 图)
其实声纹鉴定并非有多神秘,声音的产生物体受外力作用发生振动,就会产生声波。声波经由介质(如空气、固体或液体)传播,被人或动物的听觉器官所感知,就产生了声音。因此,声音产生的关键在于振动、介质传播和听觉感知。而声纹则是通过声音采集设备(话筒),将声音采集到计算机中,再将其从物理信号转换为数字信号。通过信号处理技术,将这些数字信号切分为部分重叠的等时长小片段,对每个小片段进行预加重、加权等处理。这些处理是为了减少信号处理的冗余,提高信号还原精度。最后对信号进行傅里叶变换,得到能够同时显示时间(横轴)、频率(纵轴)和振幅(颜色)三个维度的图像,即语谱图。(来源《中学科技》)早在20世纪30年代,Bell实验室的劳伦斯·科斯塔,目视观察语谱图进行识别,提出了“声纹”的概念,并且坚持认为,声纹类似于DNA,具有稳定性,并不会随着环境的改变而改变。但劳氏的观点还是有所偏颇,根据现有的研究表明,人的声音随年龄而变化,且生活环境的改变对口音、说话方式也有影响。这就意味着声纹的稳定性是相对的。而且,现在的声纹科技产品,根据公安部发布《GA/T 1179-2014安防声纹确认应用算法技术要求和测试方法》标准,如果按照事先指定的文本读出内容,声纹识别准确率为99.8%;如不照读事先指定的文本内容而随意发声,声纹识别准确率为99.1%。虽然准确率不低,但还是存在误判的可能,在设计使用场景和流程时,需要考虑到声纹识别并非100%准确率的现实。而在司法案件中,其实是过滤了很多无需声纹鉴定的案件,完全可以通过客观证据定性的案件,根本无需声纹鉴定,只有缺失客观证据亦或者案件争议性很大,不得不通过声纹鉴定确定案件事实,司法官才会切入声纹鉴定的程序。故,对于科学鉴定性证据应当重视,但绝对不能迷信。例如近年来一起较为有名的冤案——福建念斌投毒杀人案就是因为公安机关作出的被害人系氟乙酸盐剧毒品中毒,后被证明该鉴定意见是错误的,导致案件整个证据链的崩盘,两被害人因何中毒至今仍无法确认。2021年,广东省公安厅对境外回流人员进行初步声纹对比,发现曹某与中山市钱某被诈骗案、广州番禺卢某被诈骗案、佛山顺德梁某被诈骗案的嫌疑人微信语音声纹特征一致,2021年12月14日曹某被刑事拘留,后被批准逮捕。后来发现曹某有两笔滴滴账户接单记录与被害人钱某提供的嫌疑人发送微信语音时间重合,说明诈骗案发时,曹某在开滴滴车接客户,证明其没有作案时间。之后,检察院对曹某作出不起诉决定。▲ 刑辩旅拍,与本文无直接关联(乔治律师 / 图)
从声纹鉴定本身的误差角度讲,声纹与DNA不同,并不具有唯一准确性。从外部环境角度讲,人工智能技术已经越来越多地被运用到各个领域中,自然也包含深度伪造语音。语音深度伪造其实就是利用人工智能,对人的声音进行“学习—模仿”。从当下的环境看,确实存在不法分子使用这些软件进行诈骗等违法活动。而且,由于语音的深度伪造门槛并不高,其原理其实就是将高质量的TTS系统和声音转化相结合的语音合成技术。即,通过计算机通过机器学习算法对说话人的语音样本进行特征识别,并建立相应的TTS系统。然后,把通过文本输入、语音转写等手段获取的文本信息转化为语音信号(包括实时和延时转换)。根据相关研究表明,研究者基于语音的倒谱特征,利用高斯混合模型、深度神经网络等机器学习算法开发伪造语音的自动鉴别系统,但在真伪判别的正确率上并不理想(低于70%)。随后,研究者通过借鉴人脸识别鉴别的技术,提出将通过信号处理技术或卷积神经网络提取的语音特征输入到长短时记忆模型中,然后通过分类层来判断语音是否经过伪造,但效果依旧不理想。(来源于:司法鉴定科学研究院声像和电子数据鉴定研究室)因此,在司法鉴定过程中,即使通过鉴定得出声纹具有同一性,但如果没有进行声环境鉴定(原声存在微弱的背景噪音,而伪造的语音一般不会有噪音痕迹)亦或者从宏观言语特征角度鉴定等辅助性鉴定,声纹鉴定也仅仅只是具有参考价值,而不具有绝对的唯一性。▲ 刑辩旅拍,与本文无直接关联(乔治律师 / 图)
《全国人民代表大会常务委员会关于司法鉴定管理问题的决定》将司法鉴定分为:(一)法医类鉴定;(二)物证类鉴定;(三)声像资料鉴定;(四)其他类。因此,声纹鉴定属于声像鉴定,当然要遵循《刑事诉讼法》以及司法部印发的行业规范。如果鉴定人员存在不规范行为,必然可能会导致鉴定有误。首先是鉴定的主体,自不说,进行声纹鉴定的人员必然需要具有鉴定的资格。各省市自治区司法行政部门每年对通过年检的国家鉴定机构和国家鉴定人的名单进行公布,未通过年检的鉴定机构和鉴定人进行鉴定业务是非法的。其次,就是检材。语音资料的同一性鉴定是声纹鉴定中确认人身同一的必备环节,在真实有效且未经篡改的录音材料的基础之上去进行语音的同一性鉴定并形成鉴定意见,这样形成的鉴定意见才能作为法定证据在诉讼中发挥证明作用。因此,所有鉴定的检材的提取必须合法,检材不能受到污染,否则必然会导致材料失真。按照刑事诉讼法解释的规定,来源不明或者受到污染的检材做出的鉴定结论,应当依法予以排除。比如,如果在语音的同一认定中对于检材语音质量的检验主要包含频响范围、信噪比、失真情况。频响范围不够则不能产生三条以上的共振峰,就视为不具备鉴定的条件。如果检材有严重的线性或非线性失真则视为不具备鉴定条件,也不能将之作为样本。在实际操作中,公安机关对嫌疑人的语音样本采集,侦查官一般就是在存有录音器材的场所内进行语音采集,而不是专门的语音样本采集室。在此情况下容易导致采集的语音样本回声严重,易受周围杂音的影响进而对鉴定的准确性产生影响。虽然《语音同一性鉴定技术规范》也规定,对于样本语音可以降噪处理,但是,如果导致检材语音的频率范围偏窄,第三以上(含第三)的共振峰基本没有得到反映亦或者导致听辨不清,特征反映不明显的情况下,样本也就不具有鉴定的条件。其实,对于声纹鉴定,较为被动的其实是司法官在《司法鉴定书》,并不会详细记录鉴定过程。对于其中的鉴定方法究竟是否严格适用《语音同一性鉴定技术规范》、《声像资料鉴定通用规范》等规范,无法进行实质性审查,同时也无法对声纹鉴定过程中系统实验的设计方案以及实验的环境进行考察。故,对于可能存在缺陷的鉴定意见,其实客观上讲,并非司法官在审查过程中未能尽职审查,而是其知识储备难以使其作出正确判断。尤其是在声纹鉴定意见披上形式合法的外衣时,又没有在鉴定意见中详细陈述鉴定过程,相关实质内容的审查大概率会被架空。