AI革命によりデータが不足しつつあります。研究者は何ができるのでしょうか？

インターネットは人類の知識の膨大な宝庫ですが、無尽蔵ではありません。人工知能 (AI) 研究者はこれらのリソースを急速に使い果たしています。過去 10 年間にわたる AI 分野の急速な発展は、主にニューラルネットワークの拡張と、大量のデータでのトレーニングによるものです。このアプローチは、チャットボット ChatGPT を駆動するモデルなどの大規模言語モデル (LLM) の開発に非常に効果的です。しかし、一部の専門家はこの拡大が限界に近づいていると警告している。計算エネルギー要件の増大に加えて、LLM 開発者が従来のデータセットを使い果たしていることがもう 1 つの理由です。

最近、注目を集めた研究がこの問題を数値化して、広く懸念を引き起こしました。仮想研究機関 EpochAI の研究者は、2028 年頃までに、AI モデルのトレーニングに使用される一般的なデータセットのサイズが、インターネット上で公開されているテキストの総量に近づくと予測しています。言い換えれば、AI は 4 年以内に利用可能なトレーニングデータを使い果たす可能性があります。同時に、コンテンツ所有者 (新聞社など) はデータの使用を制限するためにより厳格な措置を講じ始めており、「データ共有」危機はさらに悪化しています。

これらの制限により AI システムの開発が遅れる可能性がありますが、開発者は積極的に解決策を探しています。たとえば、OpenAI や Anthropic などの有名な AI 企業は、この問題を公に認めており、新しいデータを生成したり、型破りなデータソースを見つけたりすることで、このジレンマを解決する計画であることをほのめかしました。 OpenAIの広報担当者は「公開データ、パートナーと共有する非公開データ、合成データ生成、AIトレーナーから提供されたデータなど、さまざまなソースを使用した」と述べた。

それにもかかわらず、このデータ危機は、生成 AI モデルの開発方法に変更を強いる可能性があります。大規模で汎用的な大規模言語モデルから、より小規模でより専門化されたモデルへと、それによって AI エコシステム全体の状況が変化する可能性があります。