冯刚 | 人工智能大模型训练数据的著作权合法来源问题研究-观点

冯刚 | 人工智能大模型训练数据的著作权合法来源问题研究

冯刚 | 北京知识产权法院审判监督庭庭长

摘要：生成式人工智能的规模化应用，使得大模型训练数据的著作权合规问题成为当前知识产权领域的治理难题。针对AI训练场景下传统著作权“一对一”授权模式失灵、我国现行著作权规则供给不足的现实困境，展开系统分析，梳理境外合理使用路径的司法实践以及该制度在我国成文法框架下的适配障碍，探讨著作权补偿金制度在我国的适用可能性及其落地的现实难题。最终提出，唯有通过精细化的制度设计实现不同路径的互补适配，在权利人保护与产业创新之间达成动态平衡，方能实现创作激励与技术创新的双向赋能。

关键词：生成式人工智能大模型训练数据著作权合理使用

一引言

数字化时代，生成式人工智能凭借着其强大的数据处理和内容生成能力，已被广泛地应用于各类创作场景中。人工智能大模型的训练离不开大量数据的支撑，而目前大语言模型的训练数据覆盖书籍、期刊、网页文本、照片、代码片段等海量仍处于著作权保护期内的作品。在此背景下，探索一条符合技术发展规律、平衡各方利益的知识产权路径，已成为当前人工智能发展与法律治理的重要议题。

二大语言模型训练数据著作权保护的行业现状与底层困境

目前，已有许多AI运营商卷入大模型数据“投喂”的著作权争端漩涡。比如，美国十三位作家共同控告Meta Platforms, Inc.（下文简称“Meta案”）在未经作者授权的情况下使用其作品训练大语言模型，侵犯了作者版权；Sarah Andersen等艺术家指控被告Stability AI的人工智能软件产品Stable Diffusion在训练中使用了他们“数十亿张受版权保护的图像”；Thomson Reuters指控Ross Intelligence利用其数据库中的案件批注进行AI训练构成直接侵权（下文简称“Westlaw案”）。欧洲也存在类似案例，例如德国摄影师Robert Kneschke起诉被告Laion e.V.未经其同意将其摄影作品用来训练生成式人工智能。可见，大模型训练引发的版权争议问题已成为行业焦点。

上述案件的核心争议为，在未获得权利人“一对一”授权的情况下，大模型企业对海量受著作权保护的作品进行复制、读取、分析的行为是否构成侵权。然而，目前的相关版权许可制度难以满足人工智能训练对作品海量、系统化复制的复杂要求。根据《中华人民共和国著作权法》（以下简称《著作权法》）的基本规则，除《著作权法》中限制与例外的情况，任何人使用他人处于权利保护期内的作品，都需要取得权利人授权并支付费用，否则属于侵害著作权的行为。这种“一对一”授权许可模式在作品使用数量有限、权利人可识别侵权、成本可覆盖的传统场景中无疑可以实现适配，但人工智能的大语言模型对作品的使用呈现出海量性、分散性、不易察觉性、获得授权成本高昂的特征，与传统的授权模式的适用条件出现了质的区别。

具体而言，大语言模型的智能水平与生成能力，直接取决于训练数据的规模与多样性，其训练需以数十亿甚至上万亿token量级的受版权保护作品为基础。这些作品覆盖书籍、期刊、网页文本、摄影作品、开源代码等多种类型，对应的权利人高度分散，同时，训练素材中还存在大量匿名发布的网络内容、权属不明的第三方素材，根本无法精准溯源作品权属并与权利人谈判获得授权。即便针对可明确权利人的作品，逐笔开展“一对一”授权谈判的沟通成本、时间成本与许可费用，也将累积成天文数字，完全超出AI企业的可承受范围。与此同时，训练环节对作品的复制、分析均在封闭技术环境内完成，除非生成端露出端倪，权利人难以察觉作品被使用，企业不具有主动寻求授权的动机。在此情况下，传统授权模式赖以运行的基础条件已彻底丧失。

但在立法层面，《著作权法》中合理使用与法定许可相关条款均未就人工智能创作中获取与使用数据的合法性问题作出明确规定。例如，《著作权法》第二十四条以穷尽列举的方式规定了合理使用的13种情形，其中并无针对人工智能训练行为的专门条款。若想适用合理使用条款，仅可能通过“为个人学习、研究或者欣赏使用他人已发表作品”“为学校课堂教学或者科学研究，翻译、改编、汇编、播放或者少量复制已经发表的作品”等条款进行扩张解释，但上述条款均有明确的适用场景与数量限制，无法适配商业机构规模化的训练行为。因此，在我国目前的立法背景下，合理使用难以成为此类案件中的有效抗辩理由。这种情况使得大模型训练数据的版权合规问题目前仍处于缺乏明确法律依据的模糊地带。

三大语言模型训练数据著作权保护的可行路径分析

如前所述，传统的授权模式已难以适配于大语言模型训练对海量作品的规模化使用需求，而我国现行《著作权法》中合理使用采用封闭式列举模式，未设置兜底条款，无法覆盖大模型训练行为；法定许可制度亦未设置大模型训练场景的专门条款，更使得该领域的版权治理陷入困境。对此，本文将从合理使用和建立著作权补偿金这两种可行的方向对数据训练行为进行讨论。

（一）合理使用路径的境外实践与本土适配局限

关于人工智能训练中作品使用是否构成合理使用的问题，学术界已进行了广泛的讨论。与此同时，境外的相关实践也能为该路径提供一些参考。立法方面，日本在其著作权法修订中，明确将符合法定要件的、为人工智能数据训练实施的 “计算机信息处理”行为纳入合理使用范畴，为AI训练行为设置了明确的著作权侵权豁免规则；司法方面，美国Meta案和Westlaw案虽均遵循《美国版权法》第107条的合理使用四要素分析框架，却形成了裁判结果截然相反的两个典型样本，为合理使用的司法认定提供了重大参考价值。

在Meta案中，13位作家主张Meta公司未经授权，使用其小说、回忆录等作品训练Llama大语言模型的行为侵犯其著作权，法院通过对合理使用四要素展开分析，最终认定本案中被告的行为构成合理使用。该案中，法院首先考虑了Meta公司使用作品的目的与性质。法院认为Meta复制书籍的目的是训练其大型语言模型（LLMs），这类模型属于创新工具，可用于生成多样化文本并执行各类功能。用户可要求Llama模型编辑已写邮件、翻译某段文字（无论外译中还是中译外）、根据假设场景编写小品剧本，或完成其他各类任务。相比之下，原告书籍的用途是供读者阅读以获取娱乐或知识。复制书籍用以开发一款能够实现各种功能的工具，其用途与性质均与书籍本身存在差异。其次，在受保护作品的性质层面，法院虽认可涉案作品属于著作权法重点保护的高表达性创作，但亦认为，对于已发表作品，该因素在合理使用判定中的权重有限，不对最终结果产生实质影响。在使用部分的数量与实质性层面，法院从Meta的转化性目的之间的关系入手，即向一个大型语言模型提供整本书比仅提供半本书更能起到训练作用，因此认定Meta“利用作品的全部内容”是“合理必要的”。在第四个要素“使用对受版权保护作品的潜在市场或价值的影响”部分，原告曾主张“未经授权的复制用于AI训练会损害AI训练授权市场”，但法院认为这种观点并不能成立，若允许版权人以此为由主张损害，则任何未经授权的使用都可以被视为损害潜在的授权市场，这会导致合理使用的分析陷入循环论证。最终法院在合理使用方面作出了有利于被告Meta的判决。

而在Westlaw案中，法院虽然也严格采用合理使用四要素分析方法，但在“使用目的与性质”和“对作品潜在市场与价值的影响”两项合理使用核心要素中作出了与Meta案近乎完全相反的判断。在“使用目的与性质”上，法院并未认可训练环节的中间复制对转换性使用的补强作用，指出Ross复制Westlaw受版权保护的裁判批注，核心用途是训练其AI法律搜索引擎，而该工具的核心功能、服务目的与Westlaw平台完全重合，二者属于直接市场竞品，Ross的使用行为并未产生与原作品不同的使用目的与新价值，不具备转换性。在“对作品潜在市场与价值的影响”部分，两案的分歧进一步凸显：Westlaw案法官明确指出“不仅必须考量作品的现有市场，还必须考量原作品创作者通常会自行开发或授权他人开发的潜在衍生市场”，并直接将“法律AI训练数据授权市场”认定为受版权法保护的潜在衍生市场，这与Meta案对AI训练授权市场的态度形成了鲜明对比。

综上，境外的立法与司法实践，既展现了合理使用制度回应AI产业发展需求的可能性，也暴露了该路径在我国法律体系下的适配障碍。一方面，美国的开放式四要素分析框架，虽能实现个案的灵活调整，但也导致了裁判尺度不统一、市场主体规则预期模糊的问题，Meta案与Westlaw案的裁判分歧正是这一局限的直接体现；更重要的是，我国作为成文法国家，《著作权法》对合理使用采用严格的封闭式列举模式，未设置“其他合理情形”的兜底条款，司法机关难以在法律明文列举的情形之外创设新的合理使用豁免。这从根本上限制了我国在当前阶段将大模型训练纳入合理使用分析框架的可能性。另一方面，即便通过修法将AI训练行为纳入合理使用范畴，也面临着制度设计的两难困境：若设置无差别的合理使用豁免，虽能充分适配产业的规模化使用需求，但会造成对著作权人利益保护不足、创作激励机制弱化的问题；若设置严苛的适用要件，则又会回到传统授权模式的交易成本困境，无法解决海量作品规模化使用的核心痛点。在这种情况下，著作权补偿金制度，作为介于绝对权利保护与侵权豁免之间的折中方案可能更适配于目前的AI发展现状。

（二）著作权补偿金制度的优势与本土化构建

著作权补偿金制度起源于德国，其核心运行逻辑在于，当作品使用行为普遍、分散，传统授权模式难以运作时，由法定规则豁免使用者的事先授权义务，同时要求其按法定标准支付一笔概括性经济补偿金，再通过专门机构完成补偿金的集中收缴与统一分配。该制度自诞生以来，已被许多国家引进，成为应对复制技术发展引起的著作权保护困境的重要平衡机制。在生成式人工智能训练数据的著作权治理场景中，该制度既能够破解传统“一对一”授权模式对海量作品规模化使用的适配障碍，也能够弥补合理使用制度对著作权人经济利益保护不足的缺陷，是兼顾人工智能产业创新发展与著作权人合法权益保护的折中方案。

人工智能大模型训练对作品的特殊使用方式，使传统著作权授权制度走向失灵，但这种场景恰好能够契合著作权补偿金的适用场景。一方面，该制度破解了人工智能训练场景下传统著作权制度的事前许可机制与事后救济机制双重失灵的问题。生成式人工智能大模型的训练需要对千万级、亿级的作品进行自动化抓取与使用，在实践中，开发者几乎不可能与海量、分散的著作权人逐一完成授权谈判。同时，AI训练对单个作品的使用，本质上是通过算法提取作品中的语言规律与文本特征，并将其转化为模型参数，最终输出的内容与单个原作品通常难以达到著作权法要求的“实质性相似”标准，“算法黑箱”亦使著作权人难以举证其作品被用于模型训练，导致事后侵权追责的救济路径陷入困境。而著作权补偿金制度通过法定方式豁免了大语言模型开发者的事前授权义务，彻底破除了点对点授权的交易成本壁垒，无须再对海量作品进行权属甄别与授权磋商，能够完全适配AI训练对作品规模化、非交互式使用的产业需求；同时，该制度将著作权人的维权重心从事后的侵权举证，转化为事前的利益分配，无须著作权人完成个体的举证义务即可获得对应的经济补偿，从根本上解决了AI训练的合规性前提难题与权利人维权难的核心痛点。

另一方面，该制度有效回应了人工智能海量内容输出导致的创作激励机制失灵的质疑。生成式人工智能的规模化应用，无疑会直接挤压人类创作的市场空间，若允许AI平台无偿使用受著作权保护的作品进行训练，不仅会直接剥夺著作权人从作品衍生利用中获得收益的权利，长此以往，更会导致人类创作的激励机制彻底失灵。而著作权补偿金制度将人工智能平台从作品使用中获得的商业收益反向分配给作为创作源头的著作权人，即便无法实现对单个作品使用的精准对价，也能从整体上保障著作权人从作品的AI场景利用中获得一定的经济回报，维系了《著作权法》激励创作的核心立法目的。

另外，该制度回避了人工智能训练场景下侵权判断的法律难题。在《著作权法》层面，大语言模型训练中的数字化抓取、临时复制、特征提取等行为是否构成侵权，始终存在争议。而著作权补偿金制度的优势在于，其不依赖对单个行为是否侵权的定性判断，而是立足于各方利益的整体平衡，通过法定的概括性补偿机制，实现权利人保护与产业创新的协调。相较于合理使用制度需先完成侵权定性方能适用，补偿金制度具备更强的实践可操作性与制度兼容性。

然而，这项制度在我国同样面临一些现实障碍。著作权补偿金制度的有效运行，高度依赖成熟、高效的著作权集体管理体系，无论是补偿金的集中收缴、统一分配，还是与人工智能平台的费率协商、使用监督，都需要具备广泛代表性、高效运行能力的集体管理组织作为核心载体。而我国当前的著作权集体管理体系仍存在配套法缺失、运行透明度不足、市场化服务能力薄弱、管理作品数量不足等诸多问题，恐难以满足该制度的运行要求。

四结语

面对人工智能训练数据的著作权治理困境，合理使用路径与著作权补偿金路径，各有其制度优势与适用局限，均不可避免地存在价值偏向。合理使用路径更偏向于技术创新与产业发展，却难以兼顾对著作权人的经济利益补偿；补偿金路径更侧重于对权利人的整体保护，却也可能对人工智能产业的创新活力造成一定影响。然而，著作权制度的核心魅力，从来都不在于非此即彼的价值选择，而在于动态的利益平衡。在AI技术飞速发展的今天，只有通过精细化的制度设计，让两种路径形成互补，在不同场景、不同环节中分别适用，在权利人保护与产业创新之间找到最佳的平衡点，才能真正实现创作激励与技术创新的良性循环。

来源：中国法治在线

编辑：Sharon

分享到微博

分享到微信

分享到领英

冯刚 | 人工智能大模型训练数据的著作权合法来源问题研究

一引言

二大语言模型训练数据著作权保护的行业现状与底层困境

三大语言模型训练数据著作权保护的可行路径分析

四结语

相关文章