人工知能のトレーニング データは高価であり、豊富な資金を持つテクノロジー企業に最適です。そのため、ハーバード大学は、ディケンズ、ダンテ、シェイクスピアなど、古いために著作権で保護されていない、さまざまなジャンル、言語、著者にわたる約 100 万冊のパブリック ドメイン書籍の公開データ セットを公開する予定です。
新しいデータセットはまだリリースされておらず、いつ、どのようにリリースされるかは不明です。含まれている書籍は、Google の長期書籍スキャン プロジェクトである Google ブックスからのものであるため、Google は「この書籍の山の広範なアプリケーション」のリリースに関与することになります。
ハーバード大学は 3 月に初めて Institutional Data Initiative (IDI) をプレビューし、「人工知能の法的データの信頼できるチャネル」を作成する計画の概要を説明しました。しかし、IDI は Microsoft と OpenAI から資金援助を受けており、本日正式に開始されるまで、このプログラムに関するニュースはほとんどありませんでした。
IDIのエグゼクティブディレクターであるグレッグ・レパート氏は、このデータセットは、研究機関からAIスタートアップまで、大規模言語モデル(LLM)をトレーニングしたい人なら誰でもこのような大規模なデータセットを公開することで「競争の場を平等にする」ことを目的としていると述べた。