
孙那 陶玥竹 | 传统出版业与生成式人工智能的版权大战
· 引言
一、案件概况
二、裁判观点
三、案件评析
· 结语
引言
2025年3月,美国纽约南区联邦地区法院就人工智能公司OpenAI的大语言模型(LLM)是否侵犯新闻机构版权的标志性案件作出了判决[1],通过能动性司法回应了生成式人工智能算法黑箱时代的版权保护困境,为全球审理人工智能相关案例提供了重要的审判参考。
一、案件概况
《纽约时报》(The New York Times)《每日新闻》(Daily News)及调查报道中心(CIR)提起对于被告OpenAI及其合作伙伴微软公司的诉讼,原告指控OpenAI未获得授权便使用其作品的数据进行大语言模型训练,且生成内容替代了原告的作品,损害了其市场利益,因此向法院寻求金钱救济和禁令救济(原告诉讼时间、具体主张和法律依据见表1)。法院归纳了被告在大语言模型的训练和输出两个阶段对原告作品的使用:训练阶段,被告从互联网上抓取包括原告网站在内的大量内容,建立训练数据集,将原告文章副本存储在计算机内存、编码为数字形式,并通过输入部分内容调整模型参数,甚至通过特定作品进行多轮“微调”以模仿其内容和风格;输出阶段,大语言模型利用训练所得生成响应,通过预测下一个词来回答用户查询,原告称这些输出可能“反刍”其作品,即几乎逐字重现训练中记忆的内容,或发生回应指令内容错误及将未发布内容错误归属于原告的虚构输出等“幻觉”。此外,被告将GPT技术与微软必应搜索结合,使大语言模型以自然语言回答查询时直接重述或引用原告作品,绕过原告网站,削弱用户访问原告网站的必要性。被告为OpenAI和微软公司,二者否认所有指控。OpenAI抗辩其行为属于“合理使用”,并且原告应该早在2019至2020年就能知晓侵权风险,因此案件已超出诉讼时效。
表1:原告诉讼时间、主张及法律依据
二、裁判观点
本案由美国纽约南区法院法官Sidney H. Stein审理,于2025年3月驳回被告要求直接驳回案件核心指控的动议,于2025年4月4日作出最终判决(具体裁判结果见表2)。
表2:具体裁判结果及理由
三、案件评析
下面将针对本案的四个主要争议焦点所反映的问题进行延申讨论。
1.生成式人工智能的技术黑箱问题:诉讼时效与举证责任的动态应对
本案中的诉讼时效问题是双方首要争议焦点。《纽约时报》于2023年12月提起诉讼,《每日新闻》于2024年4月提起诉讼,被告主张原告早在2019-2020年即应知悉其数据被用于模型训练,因此涉嫌侵权发生在诉讼提起前三年多,根据法律规定,一些侵权主张已超过时效。但法院驳回被告主张,认为原告无法预见ChatGPT在后续发展中可能产生的侵权风险,且被告OpenAI没有履行其举证责任,证明《纽约时报》和《每日新闻》的原告分别在2020年12月27日和2021年4月30日之前发现或在尽职调查的情况下本应发现被指控的侵权行为。这一争议揭示了传统法律框架在应对人工智能技术快速迭代时的结构性矛盾:人工智能模型在训练初期可能仅表现为数据学习,但随着商业化应用的深入,其生成内容对原作市场的替代效应才逐渐显现,扩大了其侵权行为的发生与损害结果的显现之间的时间差,加大了对其因果关系作出即时判定的难度。
技术不可预见性对诉讼时效的挑战,本质上源自人工智能技术的非线性映射特征,可将过程简化为:输入(X)→黑箱(LLM)→输出(Y)。其输出内容的侵权风险并非开发者可以完全预判,甚至可能在模型部署后因用户交互指令而意外触发。这种技术特性使其侵权行为具有特征识别的隐蔽性和从量变到质变的累积性,一定程度上使传统法律计算诉讼时效的逻辑和举证责任的分配面临失灵。因此,应考虑权利保护和创新激励之间的平衡,过度依赖事后救济可能会纵容技术滥用,僵化的时效规则又可能会抑制创新。首先,明确人工智能企业的审查义务。如我国2025年3月公布的《人工智能示范法3.0》[2]明确了人工智能研发者和提供者的公开透明性、可解释性、公平性等义务,新增内部举报人保护制度,强化人工智能研发与应用的安全监督,并进一步扩大伦理审查义务主体范围,要求建立各级伦理审查体制机制。其次,设置动态的诉讼时效规则,借鉴专利临时保护期,对人工智能训练数据的合法使用设置一个观察窗口期,若在此期间未发现实质性侵权,则可以豁免后续责任;反之,时效从损害确认之日起算,将时效起算点与损害结果的可识别性挂钩,而非仅机械遵循行为发生时间。最后,适度减轻权利人对于诉讼时效标准的证明责任,如本案法院倾向于保护权利人,通过宽松解释“应知”标准,将技术复杂性纳入时效豁免的考量。
2.生成式人工智能侵权责任的分配问题:平台与用户的责任分担争议
本案第二个争议焦点是OpenAI是否构成与第三方用户的共同侵权。具体有三个方面的争议:首先是关于被告对于第三方侵权的知情标准,双方的异议反映了各巡回法院对于在不实际知晓第三方侵权的情况下支持共同版权侵权索赔所反映出的裁判分歧。第二巡回法院采纳了“知道或有理由知道”的客观标准,而第九巡回法院则要求“实际知晓具体侵权行为”或“故意视而不见”。纽约南区法院选择了第二巡回法院的标准,认为原告已初步证明被告对第三方侵权行为存在“推定知情”。其次是关于实质性促成的认定,原告指控被告设计的大语言模型“必然导致侵权输出”,且被告未采取有效的过滤措施,构成对侵权行为的实质性帮助。法院认为,原告提供的侵权输出示例、对被告产品的最终用户“广泛宣传”的版权侵权事件的指控以及以及OpenAI代表关于公司内部在版权问题上的分歧的声明等证据,足以使人有理由推断第三方用户侵犯了版权。最后是关于被告“实质性非侵权使用”抗辩的争议,被告引用了美国最高法院在“SONY”案[3]和“Grokster”案[4]中的判决,认为如果产品有广泛合法用途,则不构成共同侵权。但本案法院认为相较于上述两案的诱导侵权责任,被告对第三方侵权有实质性促成侵权的物质贡献,并且与用户之间存在持续帮助侵权的关系,因此不适用这些判例。
目前对于平台与用户的责任分配争议不断。在我国司法实践中,可以对照广互[5]和杭互[6]两个“奥特曼案”的先后判决进行分析。首先,可以看出对于AI平台责任的认定标准渐趋成熟。广互根据2023年7月10日发布的《生成式人工智能服务管理暂行办法》[7]中的合规义务推定主观过错,认为平台未建立投诉机制、未提示风险且未提供显著标识,有一定借鉴价值但不免机械。而在杭互奥特曼案中,法院在综合考量后,提出了人工智能合理注意义务判断标准,即服务性质、原作品知名度和侵权明显度、侵权后果、营利模式及预防侵权的合理措施,体现了过错认定标准向动态化发展。其次,对于用户与平台的责任划分需要具体分析平台服务模式与用户指令行为。广互认为平台预设模型决定了侵权可能性,因此通过平台控制力强化其主体责任。而杭互认为用户上传侵权素材与训练自己的LoRA模型是侵权主因,更侧重用户责任,认为平台构成帮助侵权,与本案平台共同侵权类似。值得注意的是,杭互提出了对于生成式人工智能训练数据的用户个人合理使用问题的具有参考价值的四个标准,即非作品性使用—聚合大量作品作为分析样本数据进行提高作品创作能力训练,并非以再现作品的独创性表达为目的;过程性复制、临时复制—一般情况下数据训练只是对语料数据作结构特征分析时暂时保留了在先作品、数据训练及生成过程中也未将在先作品展示给公众;无证据证明生成式人工智能是为使用权利作品的独创性表达为目的;无证据证明影响到权利作品正常使用或者不合理地损害相关版权人的合法利益。最后,对于侵权责任的承担措施渐趋分明。广互要求平台“停止生成侵权内容”,侧重于从结果角度进行控制,但未区分生成控制与传播控制的可行性。杭互提出“分类分层治理”,对用户而言,个人使用存储的图片或模型不予删除,对平台而言,宽松认定数据输入与训练阶段,从严监管输出与使用阶段,要求平台删除侵权内容并通过关键词过滤阻断传播,而非完全禁止生成相似内容,体现了责任承担措施向分主体分阶段的精细化发展。
3.生成式人工智能的版权管理信息问题:防御形式与司法认定的归纳
本案第三个争议焦点是OpenAI在训练阶段使用Dragnet和Newspaper等特定算法剥离文章作者、版权声明等信息,是否构成故意移除版权管理信息(CMI)。原告根据《数字千年版权法案》对微软和OpenAI提出了两项索赔(第一项索赔基于《美国法典》第17编1202(b)(1)条,禁止故意删除或更改任何版权管理信息,第二项索赔依据《美国法典》第17编1202(b)(3)条,禁止分发未经授权删除或更改版权管理信息的作品或其复制品),认为被告“知道”或“有合理理由知道”其行为会诱使、促成、便利或隐瞒侵权行为。被告请求驳回这些索赔,辩称原告没有法定诉讼资格,且未能合理指控(1)被告删除了版权管理信息;(2)被告知道删除行为会导致侵权;(3)被告“分发”了原告作品的副本。法院认为,原告的损害与传统版权侵权损害相似,符合传统诉讼标准和法定诉讼资格,并指出《数字千年版权法案》在版权法框架内加强了对数字时代的保护。法院认为,原告指控的损害与被告删除版权管理信息行为之间存在直接因果关系,删除版权管理信息使被告能够未经授权向用户传播作品,掩盖侵权行为并导致原告收入损失。
表3:涉及删除或更改版权管理信息争议的类案
本文对照了三起生成式人工智能领域涉及删除或更改版权管理信息争议的案件(见表3),对争议进行规律总结。首先,版权管理信息技术的防御程度直接影响举证难度。当版权管理信息通过水印等强绑定技术嵌入作品时,这些残留痕迹可直接作为侵权证据,极大简化了司法审查过程。而松散管理的版权管理信息,如未加密的版权声明,由于缺乏可追溯标识,迫使权利人寻找间接证据,但算法黑箱加大举证难度,容易导致证据链断裂。其次,在证明损害与版权管理信息删除之间的因果关系时,司法倾向于保护权利人。如在Getty Images诉Stability AI案[9]中,原告通过水印残留导致的品牌混淆,成功证明了市场替代性损害,也构成了商标侵权。但在本案中法院认为,原告指控被告删除版权管理信息的行为掩盖了版权侵权,直接导致其收入损失。即使删除版权管理信息并非唯一导致损害的原因,也依然认为造成损害是删除版权管理信息的“可预见的结果”,因此原告满足提出《数字千年版权法案》索赔的因果关系要求。
最后,客体形式与技术路径的差异影响争议解决的方式。图片生成模型由于其扩散模型的特性,导致输出结果具有高度随机性和不可预测性,因此难以建立与原作的直接对应关系。相比之下,文字生成模型在用户精准提示词诱导下有较大概率一对一复现,可以通过输入输出对比建立强有力的证据链。但Raw Story Media和AlterNet Media两家在线媒体诉OpenAI案[11]的法官Colleen McMahon却认为,原告未能证明OpenAI的行为给他们造成了具体的实际损害,随着大语言模型接口的不断演变,内容权属和可追溯性变得更加复杂,生成式人工智能是通过综合信息生成内容,不太可能逐字复制原始文章进行简单的重复,并且两个原告未能提供充分证据证明他们的具体作品被直接侵犯,造成了可识别的损害,因此,法官认为其索赔请求显得更加牵强。此外,分发行为的司法认定也凸显了客体形式特性的差异:图片作品因其视觉元素的完整性更容易被认定为侵权副本,而如本案中文字生成内容由于信息重组的特性则更可能被排除在《数字千年版权法案》第1202(b)(3)条的适用范围之外。
4.生成式人工智能生成风格的保护问题:合理使用与侵权风险的讨论
本案第四个争议焦点是被告是否构成“商标淡化”。原告主张被告的大语言模型虚假地将输出内容归于原告商标的行为淡化了原告商标的显著性,并玷污损害了原告的商业声誉。法院认为原告对其商标的广泛传播、知名度、成就和消费者订阅的性质和范围的详细事实陈述足以说明其“被淡化的商标”是法律意义上的“驰名商标”,允许商标淡化诉讼继续进行。
本案引发了笔者对最近比较火的生成式人工智能服务商提供吉卜力风格照片转换服务的思考。首先,依据著作权法的思想与表达二分法并结合司法实践可知,作品的题材、内涵、主题、想法、风格、技法均属于思想范畴,不受著作权法保护,但如果复制了角色设定、情节等独创性表达,并且实质性损害了原作的市场需求,那么可能会被判定为侵权。其次,是否侵犯商标权?有学者[12]认为,因为日本吉卜力工作室在多个类别注册了“吉卜力工作室STUDIO GHIBLI”商标,其中第42类商标涵盖平面美术设计等相关服务,如果人工智能服务商提供吉卜力风格的照片转换服务,商标中的“吉卜力”并非用于标识来源,而是表示该服务的用途,即生成吉卜力风格的美术作品,那么这种使用符合我国商标法中关于合理使用的规定,即“注册商标中含有的商品通用名称、图形、型号,或直接表明商品的质量、功能、用途等特征,注册商标专用权人无权禁止他人正当使用。”在生成式人工智能涉及的商标侵权问题中,我们需要考虑,第一,生成式人工智能服务商在商业宣传中直接使用“吉卜力”标识可能构成商标性使用风险,关键在于是否导致消费者对服务来源产生混淆。若用户误认其与吉卜力工作室存在授权关联,则可能触发《商标法》第四十八条的侵权认定。正当使用应严格限于风格描述范畴,避免将“吉卜力”作为服务名称或核心营销要素,以避免造成混淆。第二,人工智能风格转换的算法生成技术属性与传统人工设计存在本质差异,但若其输出成果实质性替代专业设计服务并形成市场竞争,仍可能引发商标权冲突。若吉卜力商标被认定为驰名商标,可依据《商标法》第十三条主张跨类保护,防止商誉被不当利用。第三,以“吉卜力风格”作为核心卖点吸引流量或盈利,可能构成《反不正当竞争法》第六条规定的商业混淆行为。若宣传中暗示合作关联,即便未直接使用商标,亦可能违反第九条虚假宣传条款。
结 语
该案的裁判结果反映了美国司法实践对技术迭代的能动回应。在技术黑箱导致的诉讼时效与举证责任困境中,法院通过动态解释“应知”标准与因果关系认定,体现了对权利人利益的倾向性保护;在平台与用户责任划分中,对“实质性促成侵权”的认定拓展了传统共同侵权理论的边界,为技术提供者的责任范围划定了新标准;在版权管理信息争议中,司法对版权管理信息删除行为与损害因果关系的宽松认定,强化了数字时代版权保护的防御机制。综上所述,生成式人工智能时代的版权治理亟需构建多方协同的规则体系:技术层面,需推动算法透明化与可解释性,通过水印嵌入、元数据追踪等技术手段增强版权信息的可溯性,缓解举证难题;法律层面,应完善动态化的责任认定机制,引入“观察窗口期”等弹性规则平衡创新激励与权利保护,同时细化合理使用原则在人工智能训练与输出阶段的适用标准;伦理层面,需建立行业自律准则,要求开发者履行数据来源审查、风险披露等义务,防范技术滥用对原创生态的侵蚀,进而达到促进人工智能产业健康发展的目的。
注释(上下滑动阅览)
【1】The New York Times Company v. Microsoft Corporation et al, No. 1:2023cv11195 - Document 514 (S.D.N.Y. 2025)
.
【2】《人工智能示范法3.0》,载微信公众号“网络与信息法学会”,参见https://mp.weixin.qq.com/s/F_NmXVLaSIpyi6DGLBW1rw。
【3】U.S. Reports: Sony Corp.v. Universal City Studios, Inc., 464 U.s. 417 (1984).
【4】MGM Studios, Inc. v. Grokster, Ltd., 545 U.S. 913 (2005).
【5】上海新创华文化发展有限公司诉广州年光公司网络侵权责任纠纷案,广州互联网法院(2024)粤0192民初113号。
【6】上海某文化发展有限公司诉杭州某智能科技有限公司著作权侵权及不正当竞争纠纷案一审,杭州互联网法院(2024)浙0192民初1587号;二审,杭州互联网法院(2024)浙01民终10332号。
【7】《生成式人工智能服务管理暂行办法》,载中国政府法制信息网,https://www.moj.gov.cn/pub/sfbgw/flfggz/flfggzbmgz/202401/t20240109_493171.html。
【8】 Andersen v. Stability AI Ltd., 3:23-cv-00201, (N.D. Cal.).
【9】 Getty Images (US), Inc. v. Stability AI, Inc., 1:23-cv-00135, (D. Del.).
【10】Kadrey v. Meta Platforms, Inc., 3:23-cv-03417, (N.D. Cal.).
【11】Raw Story Media, Inc. v. OpenAI Inc., 1:24-cv-01514, (S.D.N.Y.).
【12】游云庭:《OpenAI把照片转换成吉卜力风格侵权吗?》,载微信公众号“知产力”,2025年4月2日,https://mp.weixin.qq.com/s/w0wH0TddqPBncyZInNgDWQ。
作者:孙那 陶玥竹
编辑:Sharon
