10,000 冊以上の本を読んだ法廷文書によると、Anthropic が AI_5iter.com を訓練するために数百万冊の物理的な書籍を破棄したことが示されています

生成 AI は、よく知られている信頼性の問題、膨大なエネルギー消費、著作権素材の不正使用などの理由で長い間批判されてきました。さて、最近の裁判で、これらの AI モデルのトレーニングには物理的な書籍の大規模な破壊も含まれることが明らかになりました。

Anthropic に対する最近の判決には、驚くべき詳細が隠されています。AI を生成する会社は、人工知能アシスタントを訓練するために、数百万冊の物理的な本を破壊し、装丁を切り、残骸を廃棄しました。この破壊が、アンスロピックに有利な裁判所の最終決定の要因とみなされたことは注目に値します。

言語モデルと ChatGPT の競合他社である Claude を構築するために、Anthropic はできるだけ多くの本を使ってトレーニングしました。同社は何百万冊もの物理的な書籍を購入し、ページを切り取ってスキャンすることでデジタル化し、その過程で永久に破壊しました。

さらに、Anthropic は最終デジタルバージョンを一般公開する予定はありません。この詳細は、書籍のデジタル化とスクレイピングがフェアユースとして認定されるのに十分な変換であると裁判官を説得するのに役立ちました。クロード氏はデジタル化されたライブラリを使用して独自のコンテンツを生成する可能性がありますが、批評家は、大規模な言語モデルがトレーニングデータに基づいてコンテンツをそのまま複製できる場合があると指摘しています。

Anthropic の部分的な法的勝利により、元の出版社や著者に通知することなく、著作権で保護された書籍を使用して AI モデルをトレーニングできるようになり、生成 AI 業界が直面している最大の障害の 1 つが除去される可能性があります。 Metalの元幹部は最近、著作権法の遵守が求められればAIは一夜にして死んでしまうと認めたが、これはおそらく開発者が大規模な言語モデルのトレーニングに必要な膨大なデータにアクセスできなくなるからだろう。

しかし、進行中の著作権紛争は依然としてこの技術にとって重大な脅威となっています。今月初め、ゲッティイメージズのCEOは、同社にはAI関連のすべての著作権侵害と戦う余裕はないことを認めた。一方、ミッドジャーニーに対するディズニーの訴訟（同社は、著作権で保護されたコンテンツをコピーする画像ジェネレーターの能力を実証した）は、より広範な生成型 AI エコシステムに重大な影響を与える可能性がある。

そうは言っても、Anthropic 訴訟の裁判官は、同社がクラウドのトレーニングに海賊版書籍のライブラリに部分的に依存していたため、同社に対して不利な判決を下しました。 Anthropic は 12 月にも著作権裁判に直面しており、その裁判では同社は海賊版作品ごとに最大 15 万ドルの支払いを求められる可能性がある。