Meta は最近、人工知能モデルのトレーニングに数千冊の海賊版書籍を使用することの法的リスクをめぐり、著作権侵害訴訟に直面しました。Meta は、LLAM1 および LLAM2 モデルをトレーニングするために、多数の海賊版書籍の「Books3」データ セットを使用したと報告されています。 Meta は Books3 データセットを使用したことを認めましたが、著者に適切な補償金を支払うことを拒否しました。

Books3 は、195,000 冊の書籍が含まれるテキスト データ セットで、総容量は約 37 GB になります。これは、機械学習アルゴリズムを改善するためのより良いデータソースを提供するために、2020 年に AI 研究者のショーン プレッサーによって作成されました。

Meta は、独自の LLAM モデルをトレーニングするためにもそれを使用します。しかし、Books3 には海賊版 Web サイト Bibliotik からクロールされた著作権で保護された作品が多数含まれており、Meta の行為は法的リスクにさらされています。

今年、いくつかのテクノロジー企業が同様の苦情に直面しており、生成AIモデルを構築する際にアーティスト、著者、その他のコンテンツ作成者の著作権を侵害しているとして告発されている。

さらに、人工知能に関する EU の新しい暫定規則により、企業はモデルのトレーニングに使用されるデータセットの開示を強制される可能性があり、企業はより大きな法的リスクにさらされる可能性があります。