WIRED が発表したニュースによると、米国の多くの Web サイトがインターネット アーカイブのウェイバック マシンのスナップショット機能をブロックし始めました。つまり、ウェイバック マシンがこれらのニュース Web サイトのページをキャプチャしてアーカイブすることができなくなりました。その理由は、AI クローラーがデータをキャプチャし、それを使用してモデルをトレーニングするためです。

現在の人工知能ブームにより、多くの Web サイトのトラフィックが大幅に減少しており、AI 企業は制限を回避して Web サイトのコンテンツを違法にクロールし、最終的にはキャプチャしたデータを AI 会話ロボットや後続の人工知能モデルのトレーニングに使用する方法を模索しています。

Web サイトの場合、この動作にはコンテンツを許可なくクロールして使用することが含まれ、Web サイトのトラフィックが減少します。したがって、多くの Web サイトでは、人工知能検索クローラーが robots.txt 内の Web サイト データをクロールすることを明示的に禁止しています。

Internet Archive とそのユーザーは両方とも誤って殺害されました。

正当な権利と利益を守るために、USA Today、New York Times などの多くの有名なニュースメディアが Internet Archive の Web サイトのタイムマシンをブロックしました。これらのニュース Web サイトでは、Internet Archive で使用されるクローラーである ia_archiverbot クローラーが除外されています。

ニュース メディアに加えて、Reddit などのオンライン フォーラムでも、Internet Archive によるコンテンツのクロールが禁止されています。 Reddit は、Google および OpenAI とライセンス契約を締結し、これらの企業がデータをクロールし、それを使用して人工知能モデルをトレーニングできるようにしました。少なくとも Reddit に関しては、Internet Archive にデータのクロールが許可され、AI 企業が Internet Archive のデータをクロールした場合、データの販売を継続できなくなる可能性があります。

問題は、多くのコンテンツが永続的に存在しないことです。 Web サイトのタイム マシンの重要性は、Web ページが削除されたときに、Web ページのコンテンツの変更を表示し、スナップショットを通じてコン​​テンツの閲覧を継続できることです。これは多くのユーザーにとって非常に重要です。

したがって、AI ブームの下で、インターネット アーカイブによるデータのクロールをブロックする報道機関は、実際には、AI 企業をブロックし、さらに関連機能を通常使用するユーザーをブロックするために、インターネット アーカイブとユーザーを虐殺することになります。

USA Today は、これは Internet Archive に向けられたものではないと述べました。

USA Today の広報担当者は、Internet Archive によってクロールされたコンテンツのブロックは、特に Internet Archive をターゲットにしたものではないと述べた。すべての Web クローラーを広範にブロックするのは、同社の通常の計画です。

ガーディアン紙の商務・ライセンス担当ディレクターは、人工知能企業が保存目的でコンテンツをクロールする悪用の可能性について、同社がインターネット・アーカイブと連絡を取っていると述べた(ただし、明確な結果はまだ出ていない)。

この状況から判断すると、インターネット アーカイブを介して AI 企業によってコンテンツがクロールされるのを防ぐために、今後ますます多くのメディアがインターネット アーカイブをブロックする可能性があります。結局のところ、根本的な原因は依然としてこれらの AI 企業にあります。

これらの AI 企業が承認なしにコンテンツをクロールしたり、高頻度でコンテンツをクロールしたりすることは珍しいことではありません。最終的には、これによりオープン インターネットの状況が変わり、より多くの Web サイトがパブリック アクセスから登録ログイン アクセス、さらには有料アクセスに移行できるようになる可能性があります。