ハーバード大学とグーグルは100万冊の書籍を人工知能トレーニングデータとしてパブリックドメインに公開する

人工知能のトレーニングデータは高価であり、豊富な資金を持つテクノロジー企業に最適です。そのため、ハーバード大学は、ディケンズ、ダンテ、シェイクスピアなど、古いために著作権で保護されていない、さまざまなジャンル、言語、著者にわたる約 100 万冊のパブリックドメイン書籍の公開データセットを公開する予定です。

新しいデータセットはまだリリースされておらず、いつ、どのようにリリースされるかは不明です。含まれている書籍は、Google の長期書籍スキャンプロジェクトである Google ブックスからのものであるため、Google は「この書籍の山の広範なアプリケーション」のリリースに関与することになります。

ハーバード大学は 3 月に初めて Institutional Data Initiative (IDI) をプレビューし、「人工知能の法的データの信頼できるチャネル」を作成する計画の概要を説明しました。しかし、IDI は Microsoft と OpenAI から資金援助を受けており、本日正式に開始されるまで、このプログラムに関するニュースはほとんどありませんでした。

IDIのエグゼクティブディレクターであるグレッグ・レパート氏は、このデータセットは、研究機関からAIスタートアップまで、大規模言語モデル(LLM)をトレーニングしたい人なら誰でもこのような大規模なデータセットを公開することで「競争の場を平等にする」ことを目的としていると述べた。