商建刚 | 配音员诉AI语音大模型侵权案评析-专栏

商建刚 | 配音员诉AI语音大模型侵权案评析

案号

一审：（2024）川7101民初8969号

案情

原告系配音演员，被告成都声入人心网络科技有限公司系案涉软件“超级配音”的开发者和运营者。原告认为“超级配音”软件中一名称为“孟帅”的虚拟配音包的声音与原告声音具有高度相似性，系未经原告允许通过AI对原告声音进行了克隆，并提供文字转语音服务获利。原告认为被告这一行为损害了原告的声音权益，遂提起诉讼，请求法院判令被告停止侵权、消除影响、赔偿损失及维权支出共计7.95万元。

被告辩称：“超级配音”的语音生成技术是用开源或者合法授权的声音对模型声音进行训练，并生成多款可以使用的新声音，而非克隆某一个人的声音。原告声音不具有可识别性和知名度，且被告面向的群体不会对原告声音产生混淆。

审判

一审法院认为，原告本人声音和被诉侵权声音都不具备可识别性，在未见到附有原告肖像的视频情形下，通过聆听“孟帅”的多个声音文件并不能使一般大众将该声音与原告产生联系，也不能达到通过该声音即可识别出声音的主体为原告的程度，在案证据无法证明被告存在侵害原告声音权益的行为，在仅存在相似性而无证据证明被告的人工智能配音技术存在侵权行为的情形下，原告应当对合理范围内的相似声音予以一定的容忍。

综上，一审法院认为原告主张被告侵害其声音权益的理由不能成立，故判决驳回原告的全部诉讼请求。2024年12月10日宣判后，双方当事人未提出上诉，判决已发生法律效力。

评析

随着AI语音合成技术的广泛应用，声音被收集、合成、二次制作、模仿以及篡改的现象日益频繁，由此引发的声音权益保护问题已成为司法实践中涌现的新型争议。本案即是涉及AI生成声音的侵权问题，与全国首例AI生成声音侵权案不同，本案并未认定被告利用AI技术侵犯了原告声音权益。

一、声音权益的保护模式：参照适用肖像权还是未注册商标保护的规定

自然人的声音权益既包含人格属性，也兼具经济价值，随着生成式人工智能的迅速发展，声音权益的经济价值日益凸显。司法实践中法院通常依据民法典第一千零二十三条规定，参照适用肖像权保护的有关规定。基于声音权益的特征，可以考虑将声音权益的经济价值部分适用《反不正当竞争法》对于未注册商标保护的规定。

《反不正当竞争法》第6条规定了对未注册商标的保护，经营者不得擅自使用他人有一定影响的的商品名称、包装、装潢等相同或者近似的标识，引人误认为是他人商品或与他人存在特定联系。如前所述，声音足以引起消费者将商品与由声音识别的自然人相关联，便落入《反不正当竞争法》的调整范围。具有商业影响力的声音（如广告配音、名人语音包）与未注册商标均起到标识商品/服务来源的作用。声音的竞争法权益应体现为自然人作为经营者在依法经营的范围内商业性地使用声音可期待获得的利益。而不正当竞争行为则是侵权人未经权利人许可使用其声音，使消费者产生混淆、误认进而购买产品，导致经营者正常商业性地使用声音可得的经济利益受损。若对声音的商业使用贬损自然人的人格形象，则受害人亦可参照适用肖像权保护的有关规定主张权利。此外，将声音权益参照适用未注册商标保护的规定更有利于精确认定损害赔偿数额。在全国首例AI生成声音侵权案中，法院综合考量侵权情节、同类市场产品价值以及产品播放量等因素，认为原告的经济损失为25万元。如果适用《反不正当竞争法》第17条，通过实际损失、侵权获利来精确计算赔偿数额，较之酌定赔偿更能保护声音权益的经济价值。此外，《反不正当竞争法》对恶意侵权的惩罚性赔偿规定，更能遏制AI技术的滥用。因此，声音权益的保护需构建“人格权-竞争法”二元模式，人格属性通过肖像权参照机制维护尊严，经济价值借助未注册商标保护规则遏制混淆行为。

二、声音可识别性的主观标准：相关公众判断标准

判断声音是否具有可识别性，主观上应当采取相关公众的标准。这一标准源自《商标法》，是为克服中立裁判方主观认知偏见，以客观化标准设定的拟制主体。《最高人民法院关于审理商标民事纠纷案件适用法律若干问题的解释》第八条规定，相关公众是指与商标所标识的某类商品或服务有关的消费者和与前述商品或者服务的营销有密切关系的其他经营者。相对应，一般公众指不特定的社会大众，即普通消费者或社会成员，无需考虑其与特定商品、服务或领域的关联性。相关公众的指涉范围往往小于一般公众。

在本案中，法院采取一般公众认知标准的裁判路径值得商榷。法院认为声音是否具有可识别性应当以社会一般的标准加以判断，如果社会一般公众不采用其他技术手段或识别方式而仅仅通过聆听声音即可对应、联系至特定个人，则应当认定该声音具有身份识别性。并在判决书中提到承办法官和助理听取其意见后对其声音进行辨析，认为原告声音与原告本人身份之间的联系不够密切，通过聆听“孟帅”的多个声音文件并不能使一般大众识别出声音的主体为原告。法院未考量原告在配音领域的知名度及用户群体特征。

在对于声音的可识别性上，若以一般公众的认知为判断标准，将与客观实际背离。对于本案原告的声音而言，其相关公众范围往往局限于业内及其忠实听众，而非整个社会大众。参照国家知识产权局发布的《商标审查审理指南》中规定，两声音商标的听觉感知或整体音乐形象相同或者近似，易使相关公众对商品或者服务来源产生混淆误认，或者认为二者之间存在特定联系的，判定为相同或者近似商标。另外，在司法实践中，以“戏衣谢”案为例，北京高院的判决认为，由于诉争商标标志“戏衣谢”容易使相关公众误认为与已故中国戏曲服装设计师谢某某有关，从而对商品的质量等特点产生误认。这一判断是基于相关公众的认知标准作出的，因为一般公众可能缺乏对谢某某及其作品的具体了解，不会因此产生误认。同样在本案中，应当以相关公众（如配音领域内，原告听众等）能否识别作为判断标准，具体而言可参照被诉AI生成声音发布的平台下的用户评论、行业评价等客观数据进行判断。

三、声音可识别性的客观标准：客观相似性

除了上述通过相关公众标准来进行判断声音的可识别性，还可以结合客观上声音的相似性进行综合判断。有成语叫做“闻声识人”，与指纹相同，每个人也具有其独特的声纹，声纹的相似性比对成为声音可识别性的客观标准。

声纹鉴定源于刑事技术领域，是指运用现代科学技术结合专业经验知识，对音像资料中的声音进行相应的分析检验，确定或推断语音（或音源）是否同一、音像资料是否真实（完整）、噪声的来源、语音的内容、说话人的属性以及音像资料的录制器材等为审判活动提供证据、为侦查活动提供线索的一种专门技术手段。在近年电信诈骗案频发的情况下，声纹鉴定的应用也更加普遍。本案中，原告提交了“云知声AI开放平台”声纹比对录像，比对显示原告4组配音与案涉配音的相似度分别为88.32%、90.66%、90.93%、95.35%，被告亦提交该平台的比对录像，录像显示2组男声与女声的相似度分别为65.36%、63.46%。故法院认为该软件对于声纹比对的结果不能作为认定本案存在侵权事实的依据。与本案不同的是，在全国首例AI生成声音侵权案中，被告自认其仅使用原告声音作为素材生成案涉AI声音，因此无须进行客观标准判断。而本案中，法院在否认原告提供的声纹比对结果的情况下，也未深入调查被告AI模型的训练数据来源，同时认为原告应当对合理范围内的相似声音予以一定的容忍，最终驳回了原告的诉讼请求。

人的声音随年龄而变化，且生活环境的改变对口音、说话方式也有影响，配音演员还可以根据不同场景改变其发声方式、语音语调等，但其声纹具有稳定性。在判断声音是否具有可识别性时，可以在采纳声纹鉴定的技术结论来判断声音的客观相似性的同时，结合相关公众的认知综合进行判断。

本案作为AI语音技术商业化应用的典型纠纷，其本质是经济权益之争而非人格权侵害。法院在裁判中采用一般公众认知标准存在明显局限性，未能准确反映声音权益在配音等特定商业领域的实际价值。更为妥当的裁判路径应当是立足竞争法框架，采取"特定领域公众+客观技术标准"的双重检验机制，重点考察相关行业公众的识别能力，同时结合声纹鉴定等客观技术手段进行综合判断。面对人工智能技术的飞速发展，司法只有保持审慎的态度，才能减少法益保护与技术发展之间的张力。

作者：商建刚

编辑：Sharon

分享到微博

分享到微信

分享到领英


关注公众号		联系小编

电话：+86 18917798290
地址：上海市嘉定区陈家山路355号创新创业大厦

商建刚 | 配音员诉AI语音大模型侵权案评析

相关文章