熊文聪 | 速评德、美最新AI版权案

· 引言

一、机器学习属于著作权法意义上的“复制”吗？

二、未经允许复制他人作品就一定侵权吗？

三、数据训练的合理使用空间有多大？

四、结语：对中国的启示

引言

真是千呼万唤始出来！近日，围绕生成式人工智能抓取海量数据用于大模型训练是否侵犯作品版权的纠纷，德国和美国的地方法院先后公布了两起案件的一审判决，且均驳回了原告的诉请，即便两案相关事实和说理并不完全相同。这一结果恐怕并不被全世界众多版权人所喜闻乐见。值得一提的是，围绕生成式人工智能技术和产业所引发的版权问题，有一个非常鲜明的特点，即早在发生真实的案件纠纷之前，就已经被著作权法理论界和实务界所构想、拟制及翻来覆去地反复讨论，各种观点精彩纷呈，而当现实的裁判结果（无论中国还是境外）出来时，又似乎都超出了大家的预期，让人感到意外、错愕、失望和不理解。本文希望借助对德、美两国最新案例的梳理与解读，重新认识著作权法中的一些基本概念和命题。

一、机器学习属于著作权法意义上的“复制”吗？

有研究者提出，人工智能语境下的数据训练，可分为数据准备和机器学习两个阶段。前者涉及对目标数据的爬取、收集，毫无疑问落入复制权的控制范围；而对于后者，机器学习的本质是通过对参数的不断调整，使得输入能够在经过模型“加工”后，得到预期的输出。“加工”并不是“原样复制”的过程，而是一个从符号→编号→初始特征的“转译”过程。并且，这种从符号到初始特征的“转译”并不具有一一确定性，因此是否仍然受著作权法意义上的复制权的控制，多有疑问。[1]

管见认为，其实著作权法意义上的“复制”并不要求复制品与原作品完全一样，也不要求每次复制的结果都是相同的、确定的，甚至不要求复制必须借助技术物理上“接触”原作品，只要产生了一个固定的复制件，且该复制件与原作品构成实质性相似，就叫复制。举个例子来说，小张同学记忆力超群，他阅读、背诵小李同学创作的散文后，凭记忆复写出了此散文，虽然有个别文字表达的出入，但这种行为显然构成著作权法意义上的“复制”。可见，著作权法并不看重复制的过程，而只关注行为的结果，即有没有产生一个可能冲击原作品销售市场和获利空间的替代品或衍生品。

在2024年9月27日一审判决的“Robert Kneschke v. LAION”案中，德国汉堡地区法院指出，被告的行为（人工智能语境下的机器学习），不属于临时复制。《德国著作权法》第44a条所述的临时复制指的是短暂或偶然的复制，它们构成技术过程的组成部分和必要部分，复制的唯一目的是使得作品在通过中间途径向第三方传输或者使得作品能够被合法使用，且这种复制不具有独立的经济意义。不需要自然人的介入，该复制能够在实现目的之后自动删除。而本案被告的复制是有意的，有特定目的的复制，显然不属于临时复制。[2]最终，法院认定机器学习构成作品复制权所要控制的复制行为，只是它又同时属于科学研究目的下的文本与数据挖掘而给予其侵权豁免。

可见，是侵权的“稳定复制”还是不侵权的“临时复制”，区别的关键并不在于技术事实本身，而在于后果主义考量的价值取舍——实施者的目的、是否具有独立的经济意义以及是否会给著作权人造成实质性损害。

二、未经允许复制他人作品就一定侵权吗？

由此不难得出，未经允许复制他人作品不一定就是侵权的，比如“临时复制”。而除此之外，还有哪些未经著作权人允许的复制行为是不侵权的呢？笔者认为，这需要结合著作权规范和民法原理做体系化的分析和归纳：

第一，属于法定许可范畴的复制行为。所谓法定许可，即在法律明确规定的某些情形下，行为人可以不征得权利人许可而使用其作品，但必须支付一定的报酬。显然，当属于法定许可情形时，行为人的复制行为并不侵权，即便他“未经允许”（严格来说，是法律剥夺了权利人的许可权）。

第二，属于合理使用涵摄的复制行为。所谓合理使用，即在满足特定条件的前提下，行为人可以自由、无偿地使用他人受版权保护的作品。以我国现行《著作权法》第24条为例，其中规定：“为学校课堂教学或者科学研究，少量复制已经发表的作品，供教学或者科研人员使用”，可以不经著作权人许可，不向其支付报酬。

第三，还有一种经常被人们忽略甚至误读的情形，即这种未经允许的复制，行为人并不为此承担损害赔偿责任。记得有一次学术研讨会，一位知识产权领域的资深法官发言称，行为人未经允许实施受专利权保护的技术方案，即便还处于实验研发阶段，其产品尚未投放市场，也应当为此承担侵犯专利权的损害赔偿责任。

笔者对此见解不敢苟同。依照民法原理和民法典的既有规范，承担侵权损害赔偿责任一般需要满足四个要件，即加害行为、损害结果、加害行为与损害结果之间的因果联系，以及加害人的主观过错。当还没有产生损害结果时，又怎么会有损害赔偿责任呢？举个例子来说，复印店的老板明知自己实施了未经权利人许可的复制行为（满足主观过错要件），并且已经印制了一百本图书准备对外销售（暂时存放于库房之中），此时被权利人发现，其主张损害赔偿能获得支持吗？恐怕不行，因为尚未给权利人造成损害后果（即盗版书的发行挤占了正版书的市场从而导致权利人收益减损），但并不影响其主张停止侵害、消除影响。

这种忽略或误读恐怕并不是这位资深法官的个人行为，而是由于我国脱离民法体系的、孤立的知识产权立法模式（如《著作权法》第10条对每个权项的列举和定义）极容易助长这种误读——即只要未经允许复制了受版权保护的作品，同时这种行为也不属于法定许可或合理使用的情形，便认定构成侵权，并且要承担损害赔偿责任。

这种只见树木、不见森林的立法模式直接驱动、促成了这样一种偏颇的司法观念，即只看行为人有没有实施法律所描述的、受权利人控制的行为，只要未经许可实施了该行为，便一概认定侵权，并判令其支付赔偿金——这活脱脱把侵权损害赔偿责任的四要件压缩、删减成了一个要件。甚至某些时候还将加害行为要件延伸、泛化，认为单纯的删除权利管理信息（英文缩写CMI）或破解技术保护措施也同样构成侵权。

而纽约南区地方法院在“AlterNet和Raw Story诉OpenAI”案的一审判决中，却给了这类观点当头棒喝，审理此案的McMahon法官指出：“仅仅从版权作品中删除CMI而不进行传播，并不符合历史上或习惯法上的具体损害。原告未能证明被告删除CMI的行为给自己造成了任何具体后果”，故法院以原告不满足法定的诉讼资格要求而驳回了其要求被告赔偿损失和停止侵害的诉请。[3]

由此可见，虽然美国并不是传统的民法体系国家，但法官同样秉持了侵权损害赔偿请求权必须同时满足若干要件的法理，即排除他人对权利管理信息的删改或对技术保护措施的破坏，并不是权利人享有的一项独立的著作权。权利人要想获得赔偿，必须证明被告在删除作品上的权利管理信息之后，还复制并传播了该作品。著作权的本质是控制作品的传播，也只有当被告实施了传播作品（或者说“与作品构成实质性相似的侵权内容”）的行为，才可能会实质性影响原作的市场销售和获利空间，从而给原告造成损害后果。而如果仅仅是删除权利管理用于训练人工智能，尚未证明与原作构成实质性相似的人工智能生成内容的传播给原作权利人造成了具体的、特定的实际损害或迫在眉睫的损害，便自然应当驳回其诉请了。

三、数据训练的合理使用空间有多大？

最后，回到一个更为关键和复杂的问题，即利用已有版权作品进行机器学习和内容生成，到底多大程度上会被认为是合理使用从而得到侵权豁免？虽然前述美国的首案，法院并没有回答这个问题（因为原告提出了错误的诉讼主张和事实理由？），但这个问题在今后众多同类案件的审判中肯定是不可回避的。而前述德国的首案，法院则做出了正面的回应：被告LAION作为一家非营利性的研究机构和社团法人，其抓取、复制、收集包括原告享有著作权保护的摄影图片在内的众多图片和文档，并经过信息比对和分析后创建一个包含58.5亿条数据的数据集，其目的是将其免费提供给公众用于训练人工智能模型，符合“为了科学研究目的的文本与数据挖掘”版权例外条款（即《德国著作权法》第60d条），故被告的行为属于合理使用，不构成侵权。[4]

特别需要交待的是，作为作者权体系和成文法的典型代表，德国并没有同美国一样的、高度弹性化的“合理使用fair use”规则，即它不是多因素综合考量测试法（multi-factors test ），而是构成要件（requirements）式的权利限制与例外。[5]这一差异决定了德国的判定规则更加明确也就略显僵化。例如，在前述德国判例中，审理法官认为，只要被告的复制行为属于科学研究目的的文本与数据挖掘，即便被告所创建的数据集可能被商业公司用于训练模型或进一步开发人工智能系统，都与被告的非商业性机构的定性无关。并且，利用该数据集由此产生的人工智能生成内容可能与人类所创作的作品竞争，但仅凭这一点，并不能证明创建训练数据集会“与作品的正常利用相冲突”。[6]

而相对而言，美国“合理使用fair use”的多因素综合考量法（美国《版权法》第107条示举了至少四项判断合理使用时需要考量的因素，即①使用的目的与性质，包括使用是否具有商业性质，或是否为了营利的教学目的；②被使用作品的性质；③相对于被使用作品之整体，所使用部分的质与量；④对被使用作品的潜在市场或价值之影响）则更为弹性和灵活，更能指引法官关注到每个案件中丰富多样的事实情境，从而进行更加细致入微的利弊权衡。

但万变不离其宗，合理使用的判断仍然有规律可循。管见认为，既然著作权作为财产制度是对社会资源（智力创作成果）的一种分配方式，而以合理使用为代表的著作权限制规则无非只是一种利益再分配机制，那解题的思路与方案仍然还是需要回到经济学中找寻。在法经济学看来，法律通过赋予资源创造者或投资者排他性的财产权，即将使用该资源的成本和收益“内部化”，权利人会尽力使资源以最小的成本发挥最大的效益，同时避免因外部性造成公地悲剧问题，但这一理想结果的出现是以市场没有失灵为前提的。而一旦交易成本过高或因正外部性（如公共利益）导致交易无法达成，市场就会失灵。此时，通过限制财产权的排他性，让使用者能够越过权利人自由利用该智力成果资源，从而降低总成本就是可行的。由此可见，合理使用就是当著作权许可市场出现失灵时，一套更好地配置资源，增加社会整体福利的替代方案或实现机制。[7]

也因此，可以将合理使用的适用范围概括为两种情形，即（一）因作品的获取或利用关涉重大公共利益而导致的市场失灵和（二）因交易成本过高而导致的市场失灵。前述德国的判例，更倾向于第一种，即被告LAION作为非营利性的社团法人，其对众多图片和文档的抓取和利用，是因关涉重大公共利益（科学研究）而导致的市场失灵，因此需要启动合理使用（权利限制与例外）来重新配置资源。而如果像OpenAI这样的商业机构，则很难以第一种市场失灵来进行侵权抗辩，但完全可以借由第二种因交易成本过高而导致的市场失灵来主张自己构成合理使用，因为毕竟其抓取的、用于训练人工智能模型的数据是海量的，如果都必须事先一一征得权利人许可才可以利用，其交易成本无疑是高昂的。

另外，即便这些被利用的海量作品是由一家或几家机构集中运营管理，获得许可的交易成本看上去似乎并不高，但权利人要证明被告最终输出的人工智能生成内容是与原作品构成实质性相似的竞品，从而实质性影响原作的市场销售和获利空间，则又是一个更加有难度和不确定的问题，再加上尽可能鼓励和促进AI技术及产业发展的价值导向和政策方向，也因此，笔者对今后会陆续出来的同类案件裁决结果做一番审慎的预测，即很多情况下将海量作品、数据用于训练人工智能大模型的行为会因属于合理使用或其生成内容与版权作品不构成实质性相似而被法院判定不侵权。

四、结语：对中国的启示

实际上，围绕生成式人工智能技术是否侵犯作品版权的纠纷，当事人早已叩开了中国法院的大门，但它山之石可以攻玉，学习、研究和借鉴别国的经验做法，是必要的也是应当的。当然，值得我们学习和借鉴的，并不在于在先判决的结论，而在于法官裁判的思路、说理的依据以及解释的方法。另一方面，我们也不需要过分担心甚至恐慌人工智能或其他新的前沿技术会给著作权制度带来什么颠覆性的挑战，纵观历史可知，每一波传播技术的革新巨流都被著作权法这片汪洋大海所吸纳了，只要秉持正确的观念、常识和逻辑，它掀不起什么大浪。相反，讨论、探索和解决新技术所带来的新问题，有助于反思和澄清我们对法律既有概念、规则和原理的理解和认知，从而消除纷争、达成共识。

注释（上下滑动阅览）

【1】魏立舟、吴亦全：《机器学习的过程涉及对样本的复制吗？》，载“LegalAI课题组”微信公众号：https://mp.weixin.qq.com/s/P1Eai_plSrezzYZQZqNbCA，2024年11月13日访问。

【2】参见陶乾编译：《知名人工智能训练数据集LAION被诉著作权侵权，德国法院这么判……》，载“CUPL知识产权创新与竞争研究中心”微信公众号：https://mp.weixin.qq.com/s/th2zCFMWPSg5PKPwiE33CQ，2024年11月14日访问。

【3】参见黄丹敏、毛文睿等编译：《美国地区法院驳回Raw Story和AlterNet对OpenAI提起的DMCA诉讼》，载"AI与网络法“微信公众号：https://mp.weixin.qq.com/s/Vnh8HZ5zd9PsP91si5PhVw，2024年11月12日访问。

【5】关于考量因素与构成要件的区别，可参见熊文聪：《“商标个案审查原则”的误读与澄清》，载《法学家》2018年第4期。

【6】参见陶乾编译：《知名人工智能训练数据集LAION被诉著作权侵权，德国法院这么判……》，载“CUPL知识产权创新与竞争研究中心”微信公众号：https://mp.weixin.qq.com/s/th2zCFMWPSg5PKPwiE33CQ，2024年11月14日访问。

【7】参见熊文聪：《网游直播“合理使用”辩》，载“知产力”微信公众号：https://mp.weixin.qq.com/s/C2oeyKYNUe4M1NS7emSaNQ，2024年11月14日访问。

作者：熊文聪

编辑：Sharon

分享到微博

分享到微信

分享到领英

熊文聪 | 速评德、美最新AI版权案

一、机器学习属于著作权法意义上的“复制”吗？

二、未经允许复制他人作品就一定侵权吗？

三、数据训练的合理使用空间有多大？

四、结语：对中国的启示

相关文章