ウィキペディアは、ボット収集ツールから防御するために AI 開発者にデータを提供します

ウィキペディアは、AI モデルのトレーニング用に特別に最適化されたデータセットを公開することで、人工知能開発者がプラットフォームをコピーするのを阻止しようとしています。ウィキメディア財団は水曜日、機械学習データをホストするためにGoogleのデータサイエンスコミュニティプラットフォームと提携したと発表した。Kaggle は、「英語とフランス語の構造化された Wikipedia コンテンツ」のベータデータセットをリリースするために協力しています。

Kaggle_SS_1920x1080_v3.width-1000.format-webp.webp

Wikipedia によれば、Kaggle がホストするデータセットは「機械学習のワークフローを念頭に置いて設計されており」、AI 開発者がモデリング、微調整、ベンチマーク、調整、分析のために機械可読な記事データにアクセスしやすくなっているそうです。データセット内のコンテンツは 4 月 15 日の時点で公的にライセンスされており、研究の要約、簡単な説明、画像リンク、情報ボックスデータ、記事の章が含まれますが、参考文献や音声ファイルなどの非文書要素は含まれません。

Wikipedia によると、Kaggle ユーザーは「JSON 形式で適切に構造化された Wikipedia コンテンツ」を利用できるため、「生の記事テキストのクロールや解析」よりも魅力的なはずです。自動化された AI ボットがプラットフォームの帯域幅を消費し続けているため、Wikipedia のサーバーは現在、大きな負荷にさらされています。 Wikipedia はすでに Google および Internet Archive とコンテンツ共有契約を結んでいますが、Kaggle との提携により、中小企業や独立系データサイエンティストがデータにアクセスしやすくなるはずです。

「機械学習コミュニティのツールおよびテストプラットフォームとして、Kaggle がウィキメディア財団データのホスティングプラットフォームになることに興奮しています」と Kaggle のパートナーシップ責任者であるブレンダフリンは述べています。「Kaggle は、このデータのアクセシビリティ、使いやすさ、有用性を確保する役割を果たすことに興奮しています。」