原告曾接受被告二北京某文化传媒公司的委托录制录音制品,被告二为录音制品的著作权人。后被告二将原告为其录制的录音制品的音频提供给被告三某软件公司,允许被告三以商业或非商业的用途使用、复制、修改数据用于其产品及服务。被告三仅以原告录制的一部录音制品作为素材进行AI化处理,生成了案涉文本转语音产品并在被告四上海某网络科技公司运营的云服务平台对外出售。被告一北京某智能科技公司与被告五北京某科技发展公司签订在线服务买卖合同,由被告五向被告三下单采购,其中包括了案涉文本转语音产品。被告一北京某智能科技公司采取应用程序接口形式,在未经技术处理的情况下,直接调取并生成文本转语音产品在其平台中使用。
原告主张,被告的行为已经严重侵犯了原告的声音权益,被告一北京某智能科技公司、被告三某软件公司应立即停止侵权、赔礼道歉,五被告应当赔偿原告经济损失、精神损失。五被告均否认侵权,主张人工智能合成后的声音产品,与自然人声音在人身权属性上有所区别,目前的技术都会对人工智能合成声音进行水印标记,这切断了人工智能合成声音与自然人声音之间的联系,不会产生对应自然人的人格属性,不具有对原告人格的可识别性。
本案原告作为配音演员,对其声音享有权益,被告三某软件公司作为上游技术开发公司,在仅将原告声音作为素材的基础上,对原告声音进行AI化,生成案涉AI声音,并将该AI声音产品提供给下游文化产品服务提供者被告一北京某智能科技公司,进而面向终端用户提供服务。该案涉及最初的声音数据采集、数据处理、人工智能合成直至最后到用户使用,完整显现了AI生成声音全链条、各环节。本案争议的主要内容为:一是原告声音权益是否及于案涉AI声音,即AI生成声音能否识别出原告;二是被告对原告声音的使用是否有合法授权;三是被诉行为是否构成侵权以及如构成侵权,应承担何种法律责任。
声音与肖像作为标表型人格权益,均具备可支配性、可商业利用性。可支配性是指每个人对自己的声音、肖像享有自主决定的权利,表现为对声音、肖像的自主制作、公开、使用或许可他人使用。可商业利用性是指对于某些自然人,尤其歌手、演员等知名人物,他们的声音、肖像因其社会知名度较高,人们一听到其声音或看到其肖像就能与该知名人物建立起联系,其声音、肖像具备一定的经济价值,该知名人物可将其声音、肖像授权他人使用,为自身带来经济利益,而且囿于其名人效应,亦可以给其他市场主体带来经济效益。声音与肖像的不同之处在于,肖像具备外在性,依附一定的物质载体而存在,通过一定的物质载体再现个人形象;声音可不依附任何物质载体而独立存在,声音与自然人主体身份的联系可不依附于有形物质载体。《民法典》第1023条第2款明确规定,“对自然人声音的保护,参照适用肖像权保护的有关规定。”该款规定明确对自然人声音的法律保护,作参照适用,而并不是直接适用肖像权的有关规定,可见,声音与肖像在法律保护上存在一定区别。因此,有必要对声音权益的内涵进行详尽阐释。
如前所述,声音权益是法定的人格权益,声音权益本质属性是“受尊重权”,维护人之为人的尊严,排除他人非法侵害。声音权益专属于自然人,不包括法人、非法人组织,该权益无法转让、也不得被限制。此外,关于AI生成声音的权益归属问题,还需回归到AI生成声音的可识别性判断上来。如果文本转语音软件生成的AI声音,是一种全新的、无法识别出其他自然人的声音,那么就该AI生成声音自然人无法享有人格权益,但开发者可就该文本转语音软件享有著作权等权利;如果仅是将某个自然人的声音AI化,生成的声音虽然带有一定的人工智能语音特征,但仍能识别出自然人身份,那么自然人的声音权益就可及于该AI生成声音。声音权益的客体是声音利益,是声音所体现的人格利益。该人格利益,既包括经济利益又包括精神利益。声音是指纯粹的声音,即声音本身,这与著作权法保护“声音的表现形式”存在本质上的不同。声音权益的内容涵盖声音制作专有权、声音使用专有权、声音处分专有权,参照肖像,肖像权人有权依法制作、使用、公开或者许可他人公开使用自己的肖像,相对应地,声音权益的内容为自然人享有依法制作、使用、公开或许可他人公开使用自己声音的权利。值得注意的是,在人工智能生成声音侵害声音权益的案件中,使用与许可他人使用的判断方式不同,比如在殷某某诉北京某智能科技公司等人格权侵权案中,被告三某软件公司将原告殷某某的声音进行AI化处理,构成对原告声音的使用,在被告三不承认使用原告声音的情况下,可以通过声纹辨认或声纹确认等方式予以判定。被告三许可他人使用该AI生成声音是否构成许可他人使用原告声音,根本问题在于该AI生成声音是否具备可识别性,原告的声音权益能否及于该AI生成声音。此时,在判定存在使用行为的前提下,则需进一步判断该AI生成声音是否具备可识别性,该问题将在下文详述。
第三种类型是使用声音及其内容,声音与声音的内容密不可分,如在“全国首例影视剧台词声音权纠纷案”中,被告在开发的游戏中使用了演员孙红雷在电视剧中的台词声音“你这瓜保熟吗”,法院认为,未经孙红雷本人同意,在游戏中使用其声音,构成声音权益侵权。该案是一起典型的使用声音及其内容的案件,声音的内容通常为社会大众所熟知,听到该内容即可与自然人建立起联系。一般来说,此类情况下,声音的可识别性判断可从主观标准、使用方式两方面综合考量,通过声音内容可以锁定相应的自然人,结合该自然人的社会知名度,以一般社会公众或一定范围内的公众的主体能否识别作为判断标准,辅之声音的使用方式进行综合判定。
人工智能时代,人的声音被收集、使用变得更加隐蔽、便捷,基于语音合成技术,通过学习收集到声音素材进行训练,可实现对目标声音特征的模仿,这使得配音变得简单、成本也更加低廉,在一定程度上促进了短视频创作。与之相伴的是,语音合成技术的发展也引发人们对声音权益侵害的担忧。如近期,OpenAI公司推出的ChatGPT-4o,可以实现识别音调、输出笑声、歌唱声和情感表达,斯嘉丽·约翰逊指控OpenAI非法使用其声音,开发出的“Sky”模式的声音与她本人非常相似。殷某某诉北京某智能科技公司等人格权侵权案,与斯嘉丽·约翰逊事件有共同之处,同样因文本转语音技术而起,被告三某软件公司开发的“晓萱”声音与原告本人的声音相似。该案在我国司法实践中尚属首例,围绕其侵权行为认定、侵权责任划分、利益衡量进行研究尤为重要。
(一)AI生成声音侵权类型
语音合成技术主要指文本转语音(Text-to-Speech),利用深度学习技术,通过神经网络直接学习文本到语音的映射关系,无需复杂的特征提取和声学模型,便可以将文本转化为语音,生成自然、富有表现力的声音。AI生成声音侵权行为可划分为以下两种类型:
一是声音合成。声音合成是指由声学模型通过大量的声音材料训练转化来的一段新的语音数据。声音合成主要依靠深度神经网络技术,提供高度拟人、流畅自然的合成语音,将文本转换为有声读物。声音合成的侵权表现形式为未经自然人许可,将自然人声音作为素材进行训练。未经许可进行声音合成,构成对自然人声音权益的侵害。如前所述,此种方式属于使用声音生成新的声音,自然人的声音权益是否及于新的声音,需要从主观标准、客观标准、使用方式三个方面综合判断。
二是声音模仿。AI生成声音语境下的声音模仿是指通过对自然人声音数据进行学习,通过文本转语音技术定制AI声音。如果利用某个自然人的声音进行朗读,需将该自然人的声音片段进行“投喂训练”,往往素材越多,声音的准确度、还原度越高。在“投喂”声音的过程中还可以进行微调训练,让AI自主学习“投喂”的声音数据的音色、音调等信息,随着训练次数的增加,生成的AI声音就与该自然人的声音越相似。如前所述,此种使用方式属于单独使用声音,若未经自然人许可将其声音作为训练素材,构成未经许可使用,侵害自然人声音权益。生成的AI声音是否具备可识别性可从使用方式、主观标准、客观标准三个方面综合判断。此外,声音模仿容易引起公众误认,以为是自然人原始的声音,可能还会造成自然人人格尊严的贬损。
(二)认定AI生成声音构成侵权的法律要件
《民法典》第995条规定,“人格权受到侵害的,受害人有权依照本法和其他法律的规定请求行为人承担民事责任。受害人的停止侵害、排除妨碍、消除危险、消除影响、恢复名誉、赔礼道歉请求权,不适用诉讼时效的规定。”若存在侵害行为或者对人格权有侵害之虞,权利人即可主张相应的请求权,至于行为人是否存在过错在所不问。该条规定意在充分尊重自然人的人格权益,给予自然人人格更积极充分的保护,从而实现保护人格尊严的目的。在AI生成声音侵害自然人声音权益案件中,认定构成侵权的要件需要从侵害行为、侵害后果、因果关系等方面综合考量。
一是侵害行为。AI生成声音的侵权行为是指未经许可的声音使用、公开等行为,主要类型包括未经自然人许可且不构成合理使用的声音合成、声音模仿,其中通过声音合成生成新的声音,就该新的声音许可他人使用行为能否被权利人控制,需要判断新的声音是否具备可识别性。在殷某某诉北京某智能科技公司等人格权侵权案中,被告二北京某文化公司将原告为其录制的录音制品的音频提供给被告三某软件公司,被告三仅以原告录制的录音制品作为素材进行AI化处理生成案涉文本转语音产品,原告未授权被告二对外许可对其声音进行AI化处理,被告三亦未获得原告的合法授权,未经原告许可使用其声音。被告三许可他人使用生成的AI声音,侵害原告的声音权益,根据前述声音的可识别性判断标准,原告是配音演员,其声音在一定范围内被熟知,与此同时,本案的特殊之处在于,被告三自认其仅使用原告声音作为素材生成案涉AI声音,因此无须进行客观标准判断。通过对比AI声音与原告声音,AI声音与原告声音的音色、语调、发音风格等具有高度一致性,可以认定,一定范围内的听众能够将案涉AI声音与原告本人建立起一一对应的联系。因此,原告的声音权益及于案涉AI声音,故被告一北京某智能科技公司在其平台公开出售案涉AI声音,同样构成对原告声音权益的侵害。
二是侵害后果。声音权益属于法定的人格权益,可适用人格权请求权之规定,行使人格权请求权不以造成权利损害的后果为要件,对于可能发生的妨害或已经存在的妨害,权利人可以通过停止妨害请求权寻求救济。权利人行使侵权请求权时,需要以存在一定损害作为前提,以补偿救济权利人。在殷某某诉北京某智能科技公司等人格权侵权案中,原告请求被告一、被告三下架对外出售的AI声音,系通过行使人格权请求权进行救济。关于损害后果,案涉AI声音虽然经过人工智能处理,但仍可以体现原告声音特征,在一定程度上可以产生替代原告声音的效果,导致原告丧失交易机会。同时,文本转语音产品生成的AI声音带给人的审美感受在一定程度上影响用户的使用体验,是产品市场价值的重要决定因素。被告三仅以原告声音作为素材开发AI声音产品,看重的是原告在配音市场经过实践检验的音色、韵律和发音风格,声音产品播放量也可反映出原告声音受到市场欢迎的程度,因此,就原告财产损失予以酌定。
三是因果关系。AI生成声音的侵害行为、侵害后果之间需具备相应的因果关系,即因侵害行为的存在导致相应侵害后果的发生。只有确定了相应的因果关系,才能要求侵害人承担相应的责任。在殷某某诉北京某智能科技公司等人格权侵权案中,五被告均实施了侵害原告声音权益的行为,导致产生原告声音权益受损的结果。
(三)AI生成声音各侵权主体责任划分
《民法典》第998条规定,“认定行为人承担侵害除生命权、身体权和健康权外的人格权的民事责任,应当考虑行为人和受害人职业、影响范围、过错程度,以及行为的目的、方式、后果等因素。”关于声音权益遭受侵害后的归责原则,参照肖像权,权利人在声音权益遭到侵害后,其请求损害赔偿,应当适用过错责任原则。
AI生成声音的各侵权主体涉及上游供应商、中间经销商、下游购买商,相对应的责任划分亦有所不同。作为上游供应商,开展原始声音数据收集与处理,其应当负有较高的审查义务,需确认获得自然人的授权许可。中间的经销商与下游的服务提供者,无法对声音的来源进行审查,如果对其苛以AI声音产品最初数据来源授权确认,不仅无法保障行业交易的效率,而且其也无法追溯到最初的数据来源。在殷某某诉北京某智能科技公司等人格权侵权案中,被告三收集原告声音数据,其也注意到声音作为关乎自然人人格利益的一项重要权益,对原告声音进行AI化的处理方式可能对原告的人格及财产利益产生重大影响,应当获得原告声音的合法授权,但其未与原告本人确认;在未获合法授权的情况下,其使用原告声音开发文本转语音产品并授权他人使用,具有过错,存在侵权的主观故意,应承担损害赔偿责任。被告一对AI生成声音未获授权不知情,且通过合理价格购买,在未经技术加工处理的情况下,直接调用该AI生成声音,其对该AI生成声音存在合理信赖,不存在主观过错,不应承担损害赔偿责任。被告四、被告五作为经销商、云服务平台,销售AI生成声音有合法来源,主观上亦不存在过错,同样无须承担损害赔偿责任。
(四)利益衡量:保护自然人权益与引导技术向善
人工智能时代,AI生成声音的语音流畅度、拟人化的程度越来越高,AI生成声音为短视频创作者开展创作带来便利,为文化市场繁荣提供技术支持。与此同时,声音可以成为个人信息,大数据工具可以通过声音分辨人的情绪,通过收集声音数据用于分析个人信息。声音(声纹)信息与个人安全直接关联,实践中,亦存在着非法收集他人声音信息进行网络诈骗的情况。AI技术若被不当使用,将严重损害自然人权益。因此,面对新技术、新类型案件时,必须要有正确的价值判断,需要通过裁判为其划定应用边界,不仅要全面尊重和保护自然人权益,更要引导技术向善发展。
一是需要加大声音权益的保护力度。对自然人声音的保护首次被写入民法典,体现了对人格权益的全面尊重和保护的立法精神。声音作为关乎自然人人格的重要人格权益,AI技术服务开发者在使用自然人声音时应当起到较高的注意义务。《生成式人工智能服务管理暂行办法》第7条明确生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动,要求必须使用具有合法来源的数据和基础模型;涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形。本案裁判秉承着保护自然人声音权益的理念,通过个人裁判明确告知相关主体收集、使用自然人声音作为数据进行AI化处理,需获得自然人的合法授权。
二是需要加强AI技术供应方监管。党的二十届三中全会审议通过的《中共中央关于进一步全面深化改革 推进中国式现代化的决定》科学谋划了围绕推进中国式现代化进一步全面深化改革的总体部署,强调“完善推动新一代信息技术、人工智能、航空航天、新能源、新材料、高端装备、生物医药、量子科技等战略性产业发展政策和治理体系,引导新兴产业健康有序发展。”在处理新一代信息技术、人工智能带来的法律问题时,应当秉持引导新一代信息技术、人工智能健康发展的司法态度,引导AI技术供应方正确对待自然人声音权益。一方面,需要提高AI技术的安全性、强化数据来源的合法性、正当性、透明性,加强数据加密、访问控制等,AI技术供应方应当与自然人依法签订授权协议,取得授权许可。另一方面,要建立更完善的监管机制,推动制定与AI生成声音相关的行业标准和规范,明确AI技术在声音处理方面的限制和应用边界,参照欧盟人工智能法,其强调高风险AI系统的透明度和可追溯性,AI生成声音技术供应方应当清晰展示其生成声音的过程和来源。
数字化时代,声音作为一种独特的信息载体,其权益保护问题日益凸显,AI语音生成技术的广泛应用,对声音权益的保护提出了新的要求。殷某某诉北京某智能科技公司等人格权侵权案,对声音的可识别性判断、AI生成声音的侵权认定进行了实践探索,强调了声音作为个体独特标识的重要性,亮明了全面保护自然人人格权益和引导技术向善发展的司法态度。