首页 / Meta 被指责使用来自海盗网站的内容来训练其人工智能。

Meta 被指责使用来自海盗网站的内容来训练其人工智能。

2025/1/14 05:48:49

Meta因使用从海盗网站下载的内容来训练其大型语言模型Llama而遭到版权诉讼。文件显示Meta员工讨论了使用盗版内容，并证实马克·扎克伯格授权使用盗版材料。Meta声称其在法律“合理使用”原则下使用公共材料，但案件仍在进行中。

新的一天，人工智能领域又引发了一场争议。这次，Meta 被指控使用从海盗网站下载的内容来训练其大型语言模型（LLM）Llama，该模型支持 Meta AI。这起案件是针对科技公司因训练人工智能而提起的版权诉讼的第一例。

文件显示Meta AI使用盗版内容进行训练

据《连线》报道，Meta于2023年因涉嫌使用盗版内容训练其LLM（大型语言模型）Llama而遭到起诉。该案件被称为“Kadrey et al. v. Meta Platforms”，由小说家理查德·卡德雷和克里斯托弗·金登提出，他们声称Meta未经授权使用了受版权保护的内容。

到目前为止，Meta已经向法院提交了包含删除信息的文件，但美国加利福尼亚北部地区法院法官Vince Chhabria下令公开原始文件——这就是发生了的事情。

这些文件揭示了Meta员工关于Meta AI和Llama的对话。在一次对话中，一名工程师说“从[由Meta拥有的]公司笔记本上下载内容并不感觉对”，这证实了该公司使用盗版内容来训练其AI。另一次对话表明，“MZ”（马克·扎克伯格）授权使用盗版材料。

证据表明，Meta 使用了来自 LibGen 的内容，这是一个巨大的盗版书籍、杂志和学术文章的图书馆。LibGen 于2008年在俄罗斯创立，并自那时起多次受到版权诉讼的打击，尽管没有人知道实际上谁运营着这个“盗版中心”。此外，据称 Meta 还从其他“暗图书馆”中使用内容进行AI训练。

该公司认为，它在法律“合理使用”原则下使用了公共材料，该原则允许在某些情况下在未经许可的情况下使用受版权保护的内容，这些情况需要根据具体情况分析。Meta还声称，它只是“使用文本来统计建模语言并生成原创表达”。

这不是科技巨头第一次因使用受版权保护的内容训练AI模型而被指责。去年，一项调查发现，苹果公司创建的OpenELM模型包含了超过17万个YouTube视频的字幕。

尽管最初人们认为苹果公司使用了受版权保护的内容来训练Apple Intelligence，但后来该公司解释说OpenELM是一个为研究目的创建的开源模型，并且其数据库没有用于 powering Apple Intelligence。

根据苹果公司，其在iOS和macOS上可用的人工智能功能“在获得许可的数据上进行训练，包括选择用于增强特定功能的数据以及我们网络爬虫收集的公开数据。”

值得注意的是，许多大型出版商，如《纽约时报》和《大西洋月刊》，选择不将他们的内容与苹果的智能训练共享。