转:Anna's Archive的博文:提供收藏给30余家AI公司进行训练,多数是中国公司

《Meta通过Anna档案以BT方式下载超81TB数据,尽管种子较少》

由Ernesto Van der Sar撰写

最新解封的法庭文件显示,Meta通过Anna的档案从影子图书馆中下载了大量数据。该公司使用BitTorrent的情况早已为人所知,但内部电子邮件通信揭示了下载数据的来源和数量(以TB计),以及由于种子较少而导致的资源有限和下载速度缓慢的问题。

上周末,影子图书馆Anna的档案提出,对于人工智能公司而言,获取“盗版”书籍可能关乎国家安全。这一有争议的观点背后的逻辑在于,如果美国公司使用从影子图书馆获得的数据来训练人工智能模型,它们将面临法律后果。然而,其他国家对此的顾虑较少,这可能使外国公司在技术上占据优势。美国科技公司深知影子图书馆的潜在力量。作为Facebook、Instagram和WhatsApp的母公司,Meta从未否认其使用这些图书馆来训练早期版本的人工智能模型。

Meta并非个例。中国人工智能领域的颠覆者DeepSeek也公开承认使用了来自“盗版”来源的数据。然而,迄今为止,主要是美国的大型科技公司被告上法庭。由包括Richard Kadrey、Sarah Silverman和Christopher Golden在内的作者提起的集体诉讼就是这样一起版权侵权案件。这些作者指控Meta未经许可使用了他们的作品。上个月,他们提交了一份经过修改的诉状,其中包含了与BitTorrent相关的指控。原告认为这尤其成问题,因为BitTorrent用户通常也会将内容上传到第三方。

“Meta通过一个名为LibTorrent的平台,使用比特流协议从LibGen下载了数百万本盗版书籍。Meta内部承认,使用这种协议存在法律问题,”第三次修改的诉状中指出。“通过比特流协议下载,Meta知道自己在为其他盗版书籍用户充当分发点时,正在助长进一步的版权侵权。”

这些被指控的不当行为需要在法庭上得到证明,因此版权所有者要求访问Meta的BT客户端日志和种子数据。该请求被拒绝。尽管如此,版权所有者还是在调查期间获得了与BT相关的证据。许多细节之前已被封存,但昨天添加到档案中的解封副本揭示了新信息。原告引用Meta内部的一封电子邮件称,该公司试图通过Anna的档案获取数据。虽然由于种子数量较少,这颇具挑战性,但他们还是成功获得了数TB的数据。

“[Meta]非法的BT下载规模之大令人震惊:仅在去年春天,Meta就通过Anna的档案从多个影子图书馆下载了至少81.7TB的数据,其中包括从Z-Library和LibGen下载的至少35.7TB的数据。”“Meta之前还从LibGen下载了80.6TB的数据,”原告在解封的文件中指出,其中提到Anna的档案时使用了“AA”的缩写。

解封的电子邮件还提到了互联网档案馆(Internet Archive)作为一个关键来源,尽管它不是一个典型的影子图书馆。该邮件概述了所取得的进展,并指出“种子较少”和“下载速度缓慢”带来了挑战。

版权担忧?Meta的员工并非没有意识到潜在的版权问题。根据解封的记录,一名员工表示:“我认为使用盗版材料应该超出我们的道德底线。”此外,公司内部还讨论了不使用Facebook基础设施进行BT下载,以“避免将种子/下载者追溯到Meta服务器”的风险。原告已经知道这些评论和引用,但现在它们已进入公共领域。它们揭示了更多内部讨论的内容,但对于Meta而言,这些BT下载指控并非改变游戏规则的因素。

Meta:合理使用。上周,Meta提交了一份动议,要求驳回作者关于“移除版权管理信息”的指控以及违反加利福尼亚州刑法第502条的指控,辩称这两项指控均未得到妥善陈述。Meta并未要求驳回版权侵权指控,但相信它可以在简易判决中“驳斥这一毫无根据的指控”。“原告没有提出任何一起实例来证明任何书籍的任何部分实际上被第三方通过Meta的BT下载,更不用说原告的书籍以某种方式被Meta分发,”该公司写道。这并不意味着Meta否认使用了影子图书馆,其论点是,根据美国版权法,使用此类数据来训练其大型语言模型(LLM)构成合理使用。

所有相关引用文件的副本均可通过Free.law的Courtlistener获得