ウィキペディアは、AI モデルのトレーニング用に特別に最適化されたデータセットを公開することで、人工知能開発者がプラットフォームをコピーするのを阻止しようとしています。ウィキメディア財団は水曜日、機械学習データをホストするためにGoogleのデータサイエンスコミュニティプラットフォームと提携したと発表した。Kaggle は、「英語とフランス語の構造化された Wikipedia コンテンツ」のベータ データセットをリリースするために協力しています。

Wikipedia によれば、Kaggle がホストするデータセットは「機械学習のワークフローを念頭に置いて設計されており」、AI 開発者がモデリング、微調整、ベンチマーク、調整、分析のために機械可読な記事データにアクセスしやすくなっているそうです。データセット内のコンテンツは 4 月 15 日の時点で公的にライセンスされており、研究の要約、簡単な説明、画像リンク、情報ボックス データ、記事の章が含まれますが、参考文献や音声ファイルなどの非文書要素は含まれません。
Wikipedia によると、Kaggle ユーザーは「JSON 形式で適切に構造化された Wikipedia コンテンツ」を利用できるため、「生の記事テキストのクロールや解析」よりも魅力的なはずです。自動化された AI ボットがプラットフォームの帯域幅を消費し続けているため、Wikipedia のサーバーは現在、大きな負荷にさらされています。 Wikipedia はすでに Google および Internet Archive とコンテンツ共有契約を結んでいますが、Kaggle との提携により、中小企業や独立系データ サイエンティストがデータにアクセスしやすくなるはずです。
「機械学習コミュニティのツールおよびテスト プラットフォームとして、Kaggle がウィキメディア財団データのホスティング プラットフォームになることに興奮しています」と Kaggle のパートナーシップ責任者であるブレンダ フリンは述べています。 「Kaggle は、このデータのアクセシビリティ、使いやすさ、有用性を確保する役割を果たすことに興奮しています。」