AI 企業が間接的に data_5iter.com をクロールするため、Reddit フォーラムは Internet Archive のページのクロールをブロックします。

有名なインターネットフォーラムRedditは最近、人工知能企業がInternet ArchiveのWebサイト「Wayback Machine」を通じてRedditからデータを収集し、Redditの利用規約に違反していたことを同社が発見したことを明らかにした。

Redditはこれまで、ほとんどの検索エンジンクローラーと人工知能クローラーによるデータのクロールをブロックしてきた。人工知能モデルのトレーニング用にデータをクロールする場合は、クロールする前に Reddit で商用ライセンスに署名し、料金を支払う必要があります。

たとえば、Google はデータアクセスのために Reddit フォーラムに年間最大 6,000 万ドルを支払います。 Google は、モデルのトレーニングのために大量の Reddit 投稿やその他のデータをクロールできます。これはGoogleにとって依然として価値のある取引である。

Internet Archive は長い間 Reddit と協力して投稿のインデックスを作成し、サイトのタイムマシンにスナップショットを撮って将来閲覧できるようにしてきましたが、手数料を払いたくない人工知能企業はクローラーを Internet Archive に切り替え、Reddit をクロールする媒体として Internet Archive を使い始めました。

この状況を発見した後、Reddit は、Internet Archive によるほとんどのページのクロールとインデックス作成のブロックを直ちに開始することを決定しました。 Web サイトのタイムマシン機能は、投稿詳細ページ、コメント、個人情報をクロールできなくなりました。逆に、Web サイトのタイムマシンは、Reddit のホームページや人気の投稿ナビゲーションを限定的にしかクロールできません。つまり、タイトルなどのコンテンツのみをクロールできます。

RedditのCEOは、今日からInternet Archiveのデータスクレイピングをブロックするとし、制限が発効する前に事前にInternet Archiveに連絡して知らせていたと述べた。 Internet Archiveは現在、この件についてRedditと積極的にやり取りを行っていると述べた。

Redditは以前にもClaudeの開発者Anthropicを訴えていた。 Redditは、Anthropicがコンテンツを許可なくクロールしていると非難した。 Reddit が自社のクローラーによるデータのクロールをブロックしたと述べたとしても、Anthropic はコンテンツのクロールを続け、Reddit の利用規約に違反することになります。