原创|北京互联网法院课题组：AI生成声音侵害声音权益的法律认定——以殷某某诉北京某智能科技公司等人格权侵权案为例

学术 2024-10-14 10:33 陕西

北京互联网法院课题组成员：

赵瑞罡，北京互联网法院党组成员、副院长、二级高级法官；

孙铭溪，北京互联网法院审判委员会专职委员；

田涵，北京互联网法院政治部副主任。

文章发表于《法律适用》2024年第9期“案例研究”栏目，第123-133页。因文章篇幅较长，为方便电子阅读，已略去原文注释。

摘要

自然人声音具有独特性、唯一性、稳定性，可以标表自然人身份，既体现人格尊严，亦带有明显的财产属性，未经许可使用他人声音构成侵权。声音是否具备可识别性以及AI生成声音是否具备可识别性，贯穿AI生成声音侵害人格权认定全链条，前者既关乎他人未经许可使用的行为是否构成侵权，又决定了有无必要进行后者的判断；后者关乎自然人声音能否及于AI生成声音以及未经许可使用该AI生成声音是否构成侵权，可以从主观标准、客观标准、使用方式三方面综合判定，主观标准应以一般社会公众或一定范围内的公众能否识别来判断，客观标准可以从声纹辨认、声纹确认、声音的音色、语调等方面综合判断。损害后果按照侵权情节、同类市场产品价值等因素综合考量。

关键词

民法典　声音　AI生成声音　可识别性　人格权益

自然人声音是由声带振动产生的机械波，以声纹、音色、频率为区分，具有独特性、唯一性、稳定性特点，能够给他人形成或引起一般人产生与该自然人有关的思想或感情活动，可以对外展示个人的行为和身份。声音和自然人的姓名、肖像一样，不仅便于识别，而且具有一定的财产价值。声音具有可复制性、可传播性，随着抖音等短视频平台的兴起，声音的利用价值更加凸显，短视频的碎片化与声音的瞬时性导致声音元素对用户注意力方面的影响较大，声音好听与否甚至直接影响用户的观看体验。与此同时，人工智能语音合成技术的迅猛发展，利用人工智能语音合成技术生成的AI声音，在一定程度上能够产生与特定自然人声音音色、语调相似的效果，而且文本转语音功能可以“一键式”将文字转化为AI声音，成本比由自然人人工配音更低，这为短视频创作者们带来便利，同时也导致声音被合成、模仿、篡改现象更加普遍，进而引发侵权问题。本文试就殷某某诉北京某智能科技公司等人格权侵权案审判中遇到的人工智能背景下声音权益保护问题作逐一梳理和分析。

一、问题的提出

（一）基本案情

原告殷某某系一名配音演员，其经朋友告知，发现自己的声音被AI化，他人利用该AI声音制作的作品在多个知名APP广泛流传，原告表示从来没有授权过任何人或公司将自己的声音AI化，但在一些短视频平台用户发布的视频中，使用的却是基于原告声音制作的AI配音。经声音筛选和溯源，原告发现上述作品中的声音来自被告一北京某智能科技公司运营平台中的文本转语音产品，用户通过输入文本、调整参数，可实现文本转化成语音的功能。

原告曾接受被告二北京某文化传媒公司的委托录制录音制品，被告二为录音制品的著作权人。后被告二将原告为其录制的录音制品的音频提供给被告三某软件公司，允许被告三以商业或非商业的用途使用、复制、修改数据用于其产品及服务。被告三仅以原告录制的一部录音制品作为素材进行AI化处理，生成了案涉文本转语音产品并在被告四上海某网络科技公司运营的云服务平台对外出售。被告一北京某智能科技公司与被告五北京某科技发展公司签订在线服务买卖合同，由被告五向被告三下单采购，其中包括了案涉文本转语音产品。被告一北京某智能科技公司采取应用程序接口形式，在未经技术处理的情况下，直接调取并生成文本转语音产品在其平台中使用。

原告主张，被告的行为已经严重侵犯了原告的声音权益，被告一北京某智能科技公司、被告三某软件公司应立即停止侵权、赔礼道歉，五被告应当赔偿原告经济损失、精神损失。五被告均否认侵权，主张人工智能合成后的声音产品，与自然人声音在人身权属性上有所区别，目前的技术都会对人工智能合成声音进行水印标记，这切断了人工智能合成声音与自然人声音之间的联系，不会产生对应自然人的人格属性，不具有对原告人格的可识别性。

（二）裁判情况

北京互联网法院（2023）京0491民初12142号民事判决书认为：原告声音权益及于案涉AI声音，未经许可使用原告声音构成侵权，赔偿损失应当考量被告侵权情节、同类市场产品价值等因素。判决被告一北京某智能科技公司、被告三某软件公司向原告赔礼道歉，被告二北京某文化传媒公司、被告三某软件公司向原告赔偿损失共计25万元。

（三）争议的问题

本案原告作为配音演员，对其声音享有权益，被告三某软件公司作为上游技术开发公司，在仅将原告声音作为素材的基础上，对原告声音进行AI化，生成案涉AI声音，并将该AI声音产品提供给下游文化产品服务提供者被告一北京某智能科技公司，进而面向终端用户提供服务。该案涉及最初的声音数据采集、数据处理、人工智能合成直至最后到用户使用，完整显现了AI生成声音全链条、各环节。本案争议的主要内容为：一是原告声音权益是否及于案涉AI声音，即AI生成声音能否识别出原告；二是被告对原告声音的使用是否有合法授权；三是被诉行为是否构成侵权以及如构成侵权，应承担何种法律责任。

本案系全国首例AI生成声音侵害人格权案，实践中，因声音权益受到侵害引发诉讼的案件相对较少，从前述争议的内容来看，亟需司法回应的问题集中在以下三方面：一是声音权益的内涵是什么。首先，声音的性质存在争议，究竟属于具体人格权、一般人格权益还是法定的人格利益存在不同的观点。其次，对自然人声音的保护参照适用肖像权保护的有关规定，“参照适用”语境下，声音权益的内容又涵盖哪些方面。最后，声音侵权类案件，法院应当如何适用法律规定进行裁判。二是AI生成声音是否具备可识别性，原告声音权益是否可以及于AI生成声音，其可识别性判断应当考量哪些因素。三是AI生成声音侵害声音权益的侵权行为、损害后果该如何认定，需要考量哪些因素。声音权益作为一项人格利益，其适用人格权请求权、损害赔偿请求权，各侵权主体的责任该如何承担。围绕上述三个方面问题，本文将逐一展开详述。

二、声音权益的内涵

声音与肖像作为标表型人格权益，均具备可支配性、可商业利用性。可支配性是指每个人对自己的声音、肖像享有自主决定的权利，表现为对声音、肖像的自主制作、公开、使用或许可他人使用。可商业利用性是指对于某些自然人，尤其歌手、演员等知名人物，他们的声音、肖像因其社会知名度较高，人们一听到其声音或看到其肖像就能与该知名人物建立起联系，其声音、肖像具备一定的经济价值，该知名人物可将其声音、肖像授权他人使用，为自身带来经济利益，而且囿于其名人效应，亦可以给其他市场主体带来经济效益。声音与肖像的不同之处在于，肖像具备外在性，依附一定的物质载体而存在，通过一定的物质载体再现个人形象；声音可不依附任何物质载体而独立存在，声音与自然人主体身份的联系可不依附于有形物质载体。《民法典》第1023条第2款明确规定，“对自然人声音的保护，参照适用肖像权保护的有关规定。”该款规定明确对自然人声音的法律保护，作参照适用，而并不是直接适用肖像权的有关规定，可见，声音与肖像在法律保护上存在一定区别。因此，有必要对声音权益的内涵进行详尽阐释。

（一）声音是一项法定的人格权益

肖像作为一项独立的具体人格权存在，民法典对声音保护采取参照适用肖像权保护的形式，关于声音是一项独立的具体人格权、一般人格权益还是一项法定的人格权益存在不同观点。有观点认为，《民法典》第1023条第2款规定“是我国民事立法上首次承认声音权，应对《民法典》施行前的声音权侵害行为溯及适用，以更好地保护自然人人格权益。”有观点认为，《民法典》第1023条第2款确认了声音权，声音权是指自然人自主支配自己的声音利益，决定对自己的声音进行使用和许可他人使用的具体人格权。有观点认为，“在肖像权的框架内增设了声音权。”有观点认为，我国最终颁布的民法典并没有规定声音权，而只是将其作为一种受保护的法律利益，理由是声音无法构成具体的人格权。有观点认为，“从我国《民法典》第1023条的规定来看，声音是一种法定的特殊人格权益，应采取法定人格利益的保护方式保护声音权益。”争论的原因在于：一是声音不能被一般人格权益所涵盖。抽象的一般人格权益通常是高度概括、没有被类型化为权利的人格利益，为自然人基于人格独立、人格自由、人格尊严产生的其他人格利益。具体人格权由一般人格权益衍生而来，一般人格权益指导具体人格权的适用，为未列入具体人格权的其他人格权益提供法律保护依据。声音具有独特的属性和特征，能够标表自然人的身份，无法被其他人格权益涵盖，与一般人格权益相区别，且“参照适用”进一步明确了声音保护适用的法律规定，这与一般人格权益亦有所区别。二是民法典并未使用声音权的表述。从《民法典》第990条来看，声音也未被明确列为具体人格权，而且民法典明确对自然人声音的保护参照适用肖像权保护的有关规定，从字面含义来看，“肖像权”是一项明确的、具体的、独立的人格权，而对于声音并未采取“声音权”的表述，反映出声音未被规定为一项独立的具体人格权。不过，这也在一定程度上表明了声音作为人格要素的独立性，在声音权益遭受损害后，权利人可以主张人格权请求权、请求行为人承担损害赔偿责任等。

殷某某诉北京某智能科技公司等人格权侵权案是一起典型的、单纯的侵害声音权益案件，围绕“声音权”还是“声音权益”的争论，合议庭反复多次考量，最终并未以“声音权”进行裁判，而是从保护“声音权益”的角度进行裁判。主要考量声音权益是应当受到民法典人格权编保护的独立人格权益，在民法典明确保护自然人声音且并未明确列明声音权的前提下，不应再适用一般人格权益，应当参照适用肖像权保护的有关规定进行裁判，突出声音权益保护，这也有利于加深民事主体对声音权益的重视。当然，随着类似案件的增多，声音利用方式的多样化，声音权益具备上升为具体人格权的条件，声音权益的权利化是必然的发展趋势。

（二）声音权益的主体、客体及内容

如前所述，声音权益是法定的人格权益，声音权益本质属性是“受尊重权”，维护人之为人的尊严，排除他人非法侵害。声音权益专属于自然人，不包括法人、非法人组织，该权益无法转让、也不得被限制。此外，关于AI生成声音的权益归属问题，还需回归到AI生成声音的可识别性判断上来。如果文本转语音软件生成的AI声音，是一种全新的、无法识别出其他自然人的声音，那么就该AI生成声音自然人无法享有人格权益，但开发者可就该文本转语音软件享有著作权等权利；如果仅是将某个自然人的声音AI化，生成的声音虽然带有一定的人工智能语音特征，但仍能识别出自然人身份，那么自然人的声音权益就可及于该AI生成声音。声音权益的客体是声音利益，是声音所体现的人格利益。该人格利益，既包括经济利益又包括精神利益。声音是指纯粹的声音，即声音本身，这与著作权法保护“声音的表现形式”存在本质上的不同。声音权益的内容涵盖声音制作专有权、声音使用专有权、声音处分专有权，参照肖像，肖像权人有权依法制作、使用、公开或者许可他人公开使用自己的肖像，相对应地，声音权益的内容为自然人享有依法制作、使用、公开或许可他人公开使用自己声音的权利。值得注意的是，在人工智能生成声音侵害声音权益的案件中，使用与许可他人使用的判断方式不同，比如在殷某某诉北京某智能科技公司等人格权侵权案中，被告三某软件公司将原告殷某某的声音进行AI化处理，构成对原告声音的使用，在被告三不承认使用原告声音的情况下，可以通过声纹辨认或声纹确认等方式予以判定。被告三许可他人使用该AI生成声音是否构成许可他人使用原告声音，根本问题在于该AI生成声音是否具备可识别性，原告的声音权益能否及于该AI生成声音。此时，在判定存在使用行为的前提下，则需进一步判断该AI生成声音是否具备可识别性，该问题将在下文详述。

三、声音的可识别性及其判断

实践中，如何判断一个声音能否被识别没有明确标准，学界关于相关问题的讨论较少，有观点认为“在认定可识别性时，应当区分名人和普通人，并考虑特定群体的认知标准。”该观点具备一定的合理性，但仍未进一步明确具体该如何适用。

（一）声音具有可识别性是法律保护的前提条件

声音是自然人人格的重要组成部分，是自然人人格最为显著的表现形式之一。声音与肖像一样独特、个人化。“在所有的人格利益中，与肖像权的客体肖像利益最相似的就是声音。”《民法典》第1018条第2款规定，“肖像是通过影像、雕塑、绘画等方式在一定载体上所反映的特定自然人可以被识别的外部形象。”肖像要义在于“可识别性”，即通过该视觉形象可识别其“主人”。对声音的保护参照适用肖像权保护的有关规定，同样地，声音受到法律保护的前提条件亦是具备可识别性。第一，声音具有独特性，声纹与指纹类似，每个人在说话过程中所蕴含的声音特征和发音习惯几乎是独一无二的，即便可以通过模仿另一个人的发音习惯、声音语调等，但也无法改变其发音的最本质特征。尤其是在成年之后，由于每个人在讲话时使用的发音器官如舌头、牙齿、口腔、声带、肺、鼻腔等在尺寸和形态方面有所差异，以及年龄、性格、语音习惯等多种原因，加之发音容量大小和发音频率不同，在发音时千姿百态，因而导致这些器官发出的声音必然有着各自的特点，可以说任何两个人的声纹图谱等不尽相同。因此，正如每个人的肖像都不可能完全与他人相同，每个人的声音都不可能完全与他人的声音相同。第二，声音具有标识身份的功能，“闻其声而知其人”，通过人的声音能够识别出人的主体身份。由于声纹的唯一性、声音音色及语调的独特性等，人们在听到某个自然人的声音后，能够产生与该自然人有关的思想或感情活动，进而识别出该自然人的主体身份。“虽然每个人声音的可识别性存在一定差异，但这仅是程度有别，并不影响其身份识别的性质。”譬如针对配音演员、相声演员、评书演员、歌手等从事与声音密切关联行业的自然人，人们对其声音熟知程度普遍较高，在听到其声音后，能够迅速将该声音与其本人建立起一一对应的联系。反之，如果一段声音不能被识别，那么就无法受到法律保护。第三，自然人对其声音权益既有积极利用的权能，亦有消极防御的权能，两项权能均建立在声音具备识别性的基础之上。声音的权利人请求行为人承担侵权责任或积极行使权利、许可他人使用声音也需以声音具备可识别性为前提，如果声音不具备可识别性，则阻断了声音与权利人之间的身份联系，权利人将无法享有对该声音的专属性控制权。

（二）声音具有可识别性的具体判断标准

依据什么标准认定声音能否被识别是亟待司法回应解决的难题。人们对声音、肖像的感知过程基本一致，人通过视觉器官完成对肖像的感知，通过听觉器官完成对声音的感知，完成感知后，继而调动记忆信息进行比较和联想。比照肖像，肖像的可识别性判断标准，在实践中存在以社会一般人的标准或一定范围内的特定主体标准。声音作为听觉类标志，其标表自然人身份的识别性相较于肖像这一视觉类标志明显较弱，与此同时，对声音的使用往往与肖像、声音内容相结合，因此，不能简单挪用肖像的可识别性判断标准。笔者认为，对于声音的可识别性判断需要从使用方式、主观标准、客观标准等多方面综合区分判断。

第一种类型是单纯使用声音，如通过音频、视频等形式对自然人声音录制、公开、模仿、拼接、篡改等，此时，需要根据自然人的社会知名度进行区分判断。如对于单田芳、马三立等知名人物，由于其声音音色、语音语调、发音风格等的独特性且通常为一般社会大众所熟知，因此，需要以一般社会公众能否识别作为判断标准进行判定。对于配音演员等从事与声音密切的行业的人员，应以在一定范围内（如配音领域内）公众能否识别作为判断标准。对于普通社会公众，由于其声音的知名度或声音音色、语音语调等的独特性不够高，如果仅单纯使用其声音，无论是一般社会公众还是一定范围内的公众都很难将该声音与自然人建立起联系，此时不应再以主体标准进行判断，而应从客观标准出发，进行声纹辨认、声纹确认来判定。当然，客观标准是兜底的判断标准，无论是知名人物、一定范围内知名人物，对其声音的判断都可以通过声纹辨认、声纹确认等方式完成。

第二种类型是使用声音合成新的声音，新的声音是否具备可识别性关键在于新的声音能否识别出自然人的声音。可以假设两种情况，一种是将一人或两人的声音作为素材，“投喂”给人工智能进行训练，经过人工智能技术加工处理生成AI声音。此时，判断新的声音是否具备可识别性，不能仅依靠声纹辨认、声纹确认的客观标准，还需结合使用方式，将新的声音的音色、语音语调、发音风格等与自然人声音作比较，同时根据自然人的社会知名度，采取一般社会公众、一定范围内的公众的主观标准进行综合判断。实践中，使用普通公众的声音生成新声音的案例较少，通常会选取配音演员的声音作为素材。因为配音演员的声音经过配音市场筛选、实践检验且有一定特色的音色、发音风格，具有“情、声、气”的语言表达技巧与美感，对配音演员的声音进行AI化，生成的AI声音的优美程度相对更好，市场价值也更高。另一种是将几十或几百个声音作为素材，“投喂”给人工智能，经过人工智能技术加工处理生成AI声音。此时，新的声音的可识别性判断仍需从使用方式、主观标准、客观标准三方面综合判断，通常来说，此种情况下新的声音大多不能被识别，自然人的声音权益不能及于新的声音，但这不意味着自然人声音不受保护，未经许可使用的行为可通过客观标准进行判断，如果确认被使用，仍构成对自然人声音权益的侵害。

第三种类型是使用声音及其内容，声音与声音的内容密不可分，如在“全国首例影视剧台词声音权纠纷案”中，被告在开发的游戏中使用了演员孙红雷在电视剧中的台词声音“你这瓜保熟吗”，法院认为，未经孙红雷本人同意，在游戏中使用其声音，构成声音权益侵权。该案是一起典型的使用声音及其内容的案件，声音的内容通常为社会大众所熟知，听到该内容即可与自然人建立起联系。一般来说，此类情况下，声音的可识别性判断可从主观标准、使用方式两方面综合考量，通过声音内容可以锁定相应的自然人，结合该自然人的社会知名度，以一般社会公众或一定范围内的公众的主体能否识别作为判断标准，辅之声音的使用方式进行综合判定。

四、AI生成声音的侵权判定

人工智能时代，人的声音被收集、使用变得更加隐蔽、便捷，基于语音合成技术，通过学习收集到声音素材进行训练，可实现对目标声音特征的模仿，这使得配音变得简单、成本也更加低廉，在一定程度上促进了短视频创作。与之相伴的是，语音合成技术的发展也引发人们对声音权益侵害的担忧。如近期，OpenAI公司推出的ChatGPT-4o，可以实现识别音调、输出笑声、歌唱声和情感表达，斯嘉丽·约翰逊指控OpenAI非法使用其声音，开发出的“Sky”模式的声音与她本人非常相似。殷某某诉北京某智能科技公司等人格权侵权案，与斯嘉丽·约翰逊事件有共同之处，同样因文本转语音技术而起，被告三某软件公司开发的“晓萱”声音与原告本人的声音相似。该案在我国司法实践中尚属首例，围绕其侵权行为认定、侵权责任划分、利益衡量进行研究尤为重要。

（一）AI生成声音侵权类型

语音合成技术主要指文本转语音（Text-to-Speech），利用深度学习技术，通过神经网络直接学习文本到语音的映射关系，无需复杂的特征提取和声学模型，便可以将文本转化为语音，生成自然、富有表现力的声音。AI生成声音侵权行为可划分为以下两种类型：

一是声音合成。声音合成是指由声学模型通过大量的声音材料训练转化来的一段新的语音数据。声音合成主要依靠深度神经网络技术，提供高度拟人、流畅自然的合成语音，将文本转换为有声读物。声音合成的侵权表现形式为未经自然人许可，将自然人声音作为素材进行训练。未经许可进行声音合成，构成对自然人声音权益的侵害。如前所述，此种方式属于使用声音生成新的声音，自然人的声音权益是否及于新的声音，需要从主观标准、客观标准、使用方式三个方面综合判断。

二是声音模仿。AI生成声音语境下的声音模仿是指通过对自然人声音数据进行学习，通过文本转语音技术定制AI声音。如果利用某个自然人的声音进行朗读，需将该自然人的声音片段进行“投喂训练”，往往素材越多，声音的准确度、还原度越高。在“投喂”声音的过程中还可以进行微调训练，让AI自主学习“投喂”的声音数据的音色、音调等信息，随着训练次数的增加，生成的AI声音就与该自然人的声音越相似。如前所述，此种使用方式属于单独使用声音，若未经自然人许可将其声音作为训练素材，构成未经许可使用，侵害自然人声音权益。生成的AI声音是否具备可识别性可从使用方式、主观标准、客观标准三个方面综合判断。此外，声音模仿容易引起公众误认，以为是自然人原始的声音，可能还会造成自然人人格尊严的贬损。

（二）认定AI生成声音构成侵权的法律要件

《民法典》第995条规定，“人格权受到侵害的，受害人有权依照本法和其他法律的规定请求行为人承担民事责任。受害人的停止侵害、排除妨碍、消除危险、消除影响、恢复名誉、赔礼道歉请求权，不适用诉讼时效的规定。”若存在侵害行为或者对人格权有侵害之虞，权利人即可主张相应的请求权，至于行为人是否存在过错在所不问。该条规定意在充分尊重自然人的人格权益，给予自然人人格更积极充分的保护，从而实现保护人格尊严的目的。在AI生成声音侵害自然人声音权益案件中，认定构成侵权的要件需要从侵害行为、侵害后果、因果关系等方面综合考量。

一是侵害行为。AI生成声音的侵权行为是指未经许可的声音使用、公开等行为，主要类型包括未经自然人许可且不构成合理使用的声音合成、声音模仿，其中通过声音合成生成新的声音，就该新的声音许可他人使用行为能否被权利人控制，需要判断新的声音是否具备可识别性。在殷某某诉北京某智能科技公司等人格权侵权案中，被告二北京某文化公司将原告为其录制的录音制品的音频提供给被告三某软件公司，被告三仅以原告录制的录音制品作为素材进行AI化处理生成案涉文本转语音产品，原告未授权被告二对外许可对其声音进行AI化处理，被告三亦未获得原告的合法授权，未经原告许可使用其声音。被告三许可他人使用生成的AI声音，侵害原告的声音权益，根据前述声音的可识别性判断标准，原告是配音演员，其声音在一定范围内被熟知，与此同时，本案的特殊之处在于，被告三自认其仅使用原告声音作为素材生成案涉AI声音，因此无须进行客观标准判断。通过对比AI声音与原告声音，AI声音与原告声音的音色、语调、发音风格等具有高度一致性，可以认定，一定范围内的听众能够将案涉AI声音与原告本人建立起一一对应的联系。因此，原告的声音权益及于案涉AI声音，故被告一北京某智能科技公司在其平台公开出售案涉AI声音，同样构成对原告声音权益的侵害。

二是侵害后果。声音权益属于法定的人格权益，可适用人格权请求权之规定，行使人格权请求权不以造成权利损害的后果为要件，对于可能发生的妨害或已经存在的妨害，权利人可以通过停止妨害请求权寻求救济。权利人行使侵权请求权时，需要以存在一定损害作为前提，以补偿救济权利人。在殷某某诉北京某智能科技公司等人格权侵权案中，原告请求被告一、被告三下架对外出售的AI声音，系通过行使人格权请求权进行救济。关于损害后果，案涉AI声音虽然经过人工智能处理，但仍可以体现原告声音特征，在一定程度上可以产生替代原告声音的效果，导致原告丧失交易机会。同时，文本转语音产品生成的AI声音带给人的审美感受在一定程度上影响用户的使用体验，是产品市场价值的重要决定因素。被告三仅以原告声音作为素材开发AI声音产品，看重的是原告在配音市场经过实践检验的音色、韵律和发音风格，声音产品播放量也可反映出原告声音受到市场欢迎的程度，因此，就原告财产损失予以酌定。

三是因果关系。AI生成声音的侵害行为、侵害后果之间需具备相应的因果关系，即因侵害行为的存在导致相应侵害后果的发生。只有确定了相应的因果关系，才能要求侵害人承担相应的责任。在殷某某诉北京某智能科技公司等人格权侵权案中，五被告均实施了侵害原告声音权益的行为，导致产生原告声音权益受损的结果。

（三）AI生成声音各侵权主体责任划分

《民法典》第998条规定，“认定行为人承担侵害除生命权、身体权和健康权外的人格权的民事责任，应当考虑行为人和受害人职业、影响范围、过错程度，以及行为的目的、方式、后果等因素。”关于声音权益遭受侵害后的归责原则，参照肖像权，权利人在声音权益遭到侵害后，其请求损害赔偿，应当适用过错责任原则。

AI生成声音的各侵权主体涉及上游供应商、中间经销商、下游购买商，相对应的责任划分亦有所不同。作为上游供应商，开展原始声音数据收集与处理，其应当负有较高的审查义务，需确认获得自然人的授权许可。中间的经销商与下游的服务提供者，无法对声音的来源进行审查，如果对其苛以AI声音产品最初数据来源授权确认，不仅无法保障行业交易的效率，而且其也无法追溯到最初的数据来源。在殷某某诉北京某智能科技公司等人格权侵权案中，被告三收集原告声音数据，其也注意到声音作为关乎自然人人格利益的一项重要权益，对原告声音进行AI化的处理方式可能对原告的人格及财产利益产生重大影响，应当获得原告声音的合法授权，但其未与原告本人确认；在未获合法授权的情况下，其使用原告声音开发文本转语音产品并授权他人使用，具有过错，存在侵权的主观故意，应承担损害赔偿责任。被告一对AI生成声音未获授权不知情，且通过合理价格购买，在未经技术加工处理的情况下，直接调用该AI生成声音，其对该AI生成声音存在合理信赖，不存在主观过错，不应承担损害赔偿责任。被告四、被告五作为经销商、云服务平台，销售AI生成声音有合法来源，主观上亦不存在过错，同样无须承担损害赔偿责任。

（四）利益衡量：保护自然人权益与引导技术向善

人工智能时代，AI生成声音的语音流畅度、拟人化的程度越来越高，AI生成声音为短视频创作者开展创作带来便利，为文化市场繁荣提供技术支持。与此同时，声音可以成为个人信息，大数据工具可以通过声音分辨人的情绪，通过收集声音数据用于分析个人信息。声音（声纹）信息与个人安全直接关联，实践中，亦存在着非法收集他人声音信息进行网络诈骗的情况。AI技术若被不当使用，将严重损害自然人权益。因此，面对新技术、新类型案件时，必须要有正确的价值判断，需要通过裁判为其划定应用边界，不仅要全面尊重和保护自然人权益，更要引导技术向善发展。

一是需要加大声音权益的保护力度。对自然人声音的保护首次被写入民法典，体现了对人格权益的全面尊重和保护的立法精神。声音作为关乎自然人人格的重要人格权益，AI技术服务开发者在使用自然人声音时应当起到较高的注意义务。《生成式人工智能服务管理暂行办法》第7条明确生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动，要求必须使用具有合法来源的数据和基础模型；涉及个人信息的，应当取得个人同意或者符合法律、行政法规规定的其他情形。本案裁判秉承着保护自然人声音权益的理念，通过个人裁判明确告知相关主体收集、使用自然人声音作为数据进行AI化处理，需获得自然人的合法授权。

二是需要加强AI技术供应方监管。党的二十届三中全会审议通过的《中共中央关于进一步全面深化改革推进中国式现代化的决定》科学谋划了围绕推进中国式现代化进一步全面深化改革的总体部署，强调“完善推动新一代信息技术、人工智能、航空航天、新能源、新材料、高端装备、生物医药、量子科技等战略性产业发展政策和治理体系，引导新兴产业健康有序发展。”在处理新一代信息技术、人工智能带来的法律问题时，应当秉持引导新一代信息技术、人工智能健康发展的司法态度，引导AI技术供应方正确对待自然人声音权益。一方面，需要提高AI技术的安全性、强化数据来源的合法性、正当性、透明性，加强数据加密、访问控制等，AI技术供应方应当与自然人依法签订授权协议，取得授权许可。另一方面，要建立更完善的监管机制，推动制定与AI生成声音相关的行业标准和规范，明确AI技术在声音处理方面的限制和应用边界，参照欧盟人工智能法，其强调高风险AI系统的透明度和可追溯性，AI生成声音技术供应方应当清晰展示其生成声音的过程和来源。

结语

数字化时代，声音作为一种独特的信息载体，其权益保护问题日益凸显，AI语音生成技术的广泛应用，对声音权益的保护提出了新的要求。殷某某诉北京某智能科技公司等人格权侵权案，对声音的可识别性判断、AI生成声音的侵权认定进行了实践探索，强调了声音作为个体独特标识的重要性，亮明了全面保护自然人人格权益和引导技术向善发展的司法态度。

责任编辑：韩利楠

文章来源：《法律适用》2024年第9期

排版：姜丹

执行编辑：刘凌梅

扫上方二维码关注

http://mp.weixin.qq.com/s?__biz=MjM5OTU4MjQwMA==&mid=2650154601&idx=1&sn=08de419be262aada3f064041b0ae1650

标典律师

陕西标典律师事务所官方账号