ホーム / Using content stolen from torrents to train AI is criticized.

Using content stolen from torrents to train AI is criticized.

2025/01/14 5:48:49
MetaがLibGenなどの盗版サイトから大量の著作権保護されていないコンテンツを使用し、AIモデルを訓練していると報告されています。これは、著作権保護されたコンテンツの使用による疑問を再度提起しています。大手テクノロジー企業がこのような行為を行うのは初めてではないものの、その正当性は議論の対象となっています。
以下が翻訳結果です: メタは、大量の盗版書籍、雑誌、学術論文を含む広大なライブラリであるLibGenからコンテンツを使用しているという証拠があります。LibGenは2008年にロシアで作られ、その後複数の著作権訴訟に直面しています。誰が実際に“盗版集散地”を運営しているのかは不明ですが、メタもAI訓練のために他の“影のライブラリ”からコンテンツを使用したと報告されています。 会社は、著作権のあるコンテンツを使用するための法的な原則「公正使用」に基づいて公有素材を用いたと主張しています。この原則では、特定の状況で著作権の許可なく利用が可能であり、各ケースごとに分析されます。Metaも、「テキストを統計的にモデル化し、独自表現を生成している」と主張しています。 大手テクノロジー企業が著作権保護されたコンテンツを使用してAIモデルを訓練していると批判されるのは、初めてではない。先年、調査はAppleが作成したOpenELMモデルが、17万以上のYouTube動画のサブタイトルを含んでいたことを明らかにしました。 しかし、最初には人々がAppleが著作権で保護されたコンテンツを使用してApple Intelligenceを訓練していると信じていました。その後、会社はOpenELMが研究目的用に作成されたオープンソースモデルであり、そのデータベースはApple Intelligenceを動かすために使用されていないことを説明しました。 AppleはiOSおよびmacOSで利用可能なAI機能を「ライセンス契約に記載されたデータ、特定の機能を強化するために選択されたデータ、そして私たちのウェブクローラーによって収集された公開データ」に基づいて訓練しています。 多くの大型出版社(The New York TimesやThe Atlanticなど)は、AppleのIntelligence訓練にコンテンツを共有することを選択していません。