时间:2025-07-31
发布时间:2025-07-31
对于版权爱好者而言,这是激动人心(从最宽泛的意义上讲)的一周,因为加州北区法院的两位法官在两起由图书作者提起的独立案件(即Bartz诉Anthropic案和Kadrey诉Meta案)中,就人工智能训练中的合理使用问题作出了裁决。在这两起案件中,相关法官均(至少部分)裁定支持人工智能开发者,但两家法院对“市场稀释”问题的看法截然不同。
背景
这两起案件的事实情况相对类似。
Bartz诉Anthropic案是一起集体诉讼,由三位图书作者(安德烈娅·巴茨、查尔斯·格雷伯和柯克·华莱士·约翰逊)针对人工智能软件公司Anthropic PBC(Anthropic)提起,涉及该公司名为克劳德(Claude)的大语言模型(LLM)。
根据诉讼过程中提交的证据和材料,2021年初,Anthropic的一位联合创始人下载了Books3,这是一个包含近20万本书的在线图书馆,这些书籍均来自盗版副本。随后,Anthropic又从基于盗版来源的存储库中下载了至少700万本其他书籍(Anthropic明知这些书籍是盗版的),其中包括原告作者的作品。克劳德的多个后续版本均使用这些书籍进行了训练。
2024年,Anthropic改变了做法,花费数千万美元购买了数百万本印刷书籍,其中许多是二手书。他们将这些书籍拆去装订,裁剪至合适尺寸,扫描成数字格式,然后丢弃纸质原件。这些副本中也包括原告作者的作品。
Anthropic利用上述所有来源创建了一个“研究图书馆”,并计划永久存储所有内容,即使不用于训练大语言模型。为训练挑选出最合适的书籍或子集,再次复制以创建训练副本,然后对这些训练副本进行反复复制,以进行清理、分词,并将其“压缩”成任何给定的已训练大语言模型。克劳德训练完成后,不会向公众输出任何进一步副本——事实上,双方均无争议的是,在用户与克劳德之间设置了额外软件,以确保不会向用户输出任何侵权内容。
对于Kadrey诉Meta案,鉴于事实情况相似,本博主不再赘述细节。简而言之,十三位作者(主要是知名小说作家)起诉Meta,指控其从在线“影子图书馆”下载他们的书籍,并使用这些书籍训练Meta的生成式人工智能模型(具体是其大语言模型Llama)。证据还显示,Meta对其模型进行了后训练,以防止它们“记忆”并输出训练数据中的某些文本,包括受版权保护的材料,因此Llama无法复制任何相关作品的显著比例作为输出。
法院裁决
Bartz诉Anthropic案
原告作者于2024年8月对Anthropic提起诉讼,指控Anthropic通过盗版副本充实其图书馆并复制这些副本以训练其大语言模型,侵犯了他们的版权。Anthropic以合理使用为由提出简易判决申请。
值得注意的是,Anthropic在其申请中辩称,盗版作者及其他数百万本书的初始副本是合理的,因为所有这些副本至少对于训练大语言模型是合理必要的。
法官指出,《版权法》第107条确定了判断对受版权保护作品的使用是否为合理使用的四个相关因素,即:
使用的目的和性质,包括该使用是否具有商业性质;
受版权保护作品的性质;
所使用部分在作品整体中所占的数量和实质性;
该使用对作品潜在市场或价值的影响。
对于第二个因素,就所有副本而言,均不利于合理使用,因为人们普遍认为所有书籍都包含表达性元素;而第三个因素则有利于合理使用,因为除盗版副本外,使用这些书籍是合理必要的,对于盗版副本,Anthropic无权使用。
至于第一和第四个因素,法官发现如下情况:
就用于训练克劳德的副本而言,使用的目的和性质“具有典型的转化性”。法官将其比作一位渴望成为作家的读者,他阅读书籍并非为了复制和取代它们,而是为了创作不同的作品。
关于第四个因素,原告作者辩称,训练大语言模型将导致“与他们的作品竞争的作品大量涌现”。然而,法官认为,这一抱怨“与他们抱怨训练学生写好文章将导致竞争作品大量涌现并无不同。这并非《版权法》所关注的竞争性或创造性替代问题。该法案旨在推动原创作品创作,而非保护作者免受竞争”(引自世嘉案,977 F.2d)。因此,就第107条而言,这属于合理使用。
就购买印刷形式书籍的数字化而言,这也具有转化性,因为以数字格式保留这些书籍便于存储和搜索。重要的是,并非仅仅因为它是大语言模型训练过程的一部分就具有转化性,这正是Anthropic所主张的。格式变更本身并未影响作者的合法权益,因此第四个因素为中性。因此,根据第107条,这种使用也被认为是合理使用。
然而,就盗版副本而言,这些副本明显一本对应一本地取代了对作者书籍的需求,而且即使这些书籍是以进一步转化性使用为目的而获取的,也不能为初始侵权行为开脱(即使它们被立即使用并立即丢弃,但本案并非如此)。甚至Anthropic也承认,这将“摧毁整个出版市场”。因此,获取盗版副本不属于合理使用。
Kadrey诉Meta案
Kadrey案的法官在第一、第二和第三个因素上基本得出了与Bartz案裁决相同的结论。然而,尽管最终结论相同,但查布里亚法官就第四个因素指出:
“本案并非将一部原创作品与一部二次作品进行比较。本案也不像之前的涉及创建数字工具的合理使用案件。在那些案件中,如谷歌图书案和Perfect 10案,该工具最多可用于访问原创作品的部分或全部内容。而本案与那些案件不同,它涉及一种能够生成数百万部二次作品的技术,且创作这些作品所花费的时间和创造力仅占其训练所依据的原创作品的一小部分。无论是创作单部二次作品还是创建其他数字工具,没有任何其他使用方式能像大语言模型训练那样,有可能用竞争作品淹没市场。因此,市场稀释概念变得高度相关。”
然而,法官认为,原告根本未能提供任何有关市场稀释的有意义证据。如果他们提供了此类证据,鉴于市场稀释在人工智能训练背景下的重要性,第四个因素将需要交由陪审团裁决。
法官确实坚决指出:“本裁决并不意味着Meta使用受版权保护材料训练其语言模型是合法的。本裁决仅意味着这些原告提出了错误的论点,且未能提供支持正确论点的记录。”
评论
尽管从表面上看,这些裁决对人工智能开发者有利,但从裁决细节中可以明显看出,实际情况要微妙得多,事实上,对于权利人而言,这些裁决可能带来一些希望,尤其是在市场稀释是分析第四个因素时重要元素这一点上。此外,有趣的是,Anthropic和Meta都曾在某种程度上考虑过批量购买书籍授权,但后来放弃了这些计划,转而选择其他更具成本效益(且可能存在疑点)的方案。Bartz案中关于盗版副本的裁决,即即使后续进行了转化性使用,也不能为初始侵权行为开脱,这可能会促使开发者重新评估授权问题,从而可能推动授权市场的发展。
来源:https://ipkitten.blogspot.com/2025/06/northern-district-of-californias-busy.html
本文原文为英文,中文为机器翻译,仅供参考,如有问题或建议,欢迎随时与我们联系。