実際のシーンから人体の 3 次元構造を推定することは困難な作業であり、人工知能、グラフィックス、ヒューマン コンピュータ インタラクションなどの分野にとって非常に重要です。ただし、既存の 3D 人間の姿勢推定データセットは通常、静的な背景を使用した制御された条件下で収集されており、現実世界のシーンの多様性を表現できていないため、現実世界のアプリケーション向けの正確なモデルの開発が制限されています。

この点において、Human3.6M や HuMMan に似た既存のデータセットは 3D 人間の姿勢推定に広く使用されていますが、これらは制御された実験室環境で収集されており、現実世界の環境の複雑さを完全に捉えることはできません。これらのデータセットには、シーンの多様性、人間の動き、およびスケーラビリティに制限があります。研究者らは 3D 人間の姿勢推定のためのさまざまなモデルを提案していますが、実際のシーンに適用すると、既存のデータセットの制限によりその有効性が妨げられることがよくあります。


中国の研究チームが、香港中文大学(深セン)とテンセントなどのチームが共同開発したプロジェクト「FreeMan」を立ち上げた。これは革新的なマルチビュー データ セットとして高く評価されており、3D 人間の姿勢推定の分野に新たなブレークスルーをもたらすことを目指しています。

FreeMan は、実際のシーンでの 3D 人間の姿勢推定における既存のデータセットの制限に対処するために設計された、新しい大規模マルチビュー データセットです。 FreeMan は、より正確で堅牢なモデルの開発を促進することを目的とした重要な貢献です。

FreeMan プロジェクトの特徴の 1 つは、データセットの規模と多様性です。このデータセットは、10 の異なるシーンと 27 の実際の会場を含む、異なるシナリオでの 8 台のスマートフォンの同時録画で構成され、合計 1,100 万フレームを超えるビデオが含まれています。各シーンは異なる照明条件をカバーしており、このデータセットは独自のリソースとなっています。

FreeMan データセットは、大規模な事前トレーニング データセットの開発を促進するためにオープンソース化されており、屋外の 3D 人間の姿勢推定の新しいベンチマークも提供します。このデータセットにはビデオだけでなく、2D および 3D の人体のキーポイント、SMPL パラメーター、バウンディング ボックスなどを含む豊富なアノテーション情報も含まれており、関連分野の研究を推進するための豊富なリソースを研究者に提供します。

FreeMan では、より表現的なものにするために、カメラ パラメーターとヒューマン スケールに変更が導入されていることは注目に値します。研究チームは、収集したデータから正確な 3D アノテーションを効率的に生成する自動アノテーション プロセスを開発しました。このプロセスには、人間の検出、2D キー ポイントの検出、3D 姿勢推定、メッシュ アノテーションが含まれます。結果として得られるデータセットは、単眼 3D 推定、2D から 3D への変換、多視点 3D 推定、人間の被験者のニューラル レンダリングなど、さまざまなタスクに役立ちます。

研究者らは、さまざまなタスクに関する FreeMan の包括的な評価ベースラインを提供します。彼らは、FreeMan でトレーニングされたモデルのパフォーマンスを、Human3.6M および HuMMan でトレーニングされたモデルと比較しました。特に、FreeMan でトレーニングされたモデルは、3DPW データセットでテストした場合に大幅に優れたパフォーマンスを示し、現実世界のシナリオにおける FreeMan の優れた一般化能力を強調しています。


マルチビュー 3D 人間の姿勢推定実験では、Human3.6M でトレーニングされたモデルと比較して、FreeMan でトレーニングされたモデルは、クロスドメイン データセットでテストした場合に優れた一般化能力を示しました。結果は、FreeMan の多様性と規模の利点を一貫して示しています。

2D から 3D のポーズ変換実験では、このデータセットでトレーニングされたモデルがより大きな困難に直面しているため、FreeMan の課題は明らかです。ただし、FreeMan トレーニング セット全体でモデルをトレーニングするとパフォーマンスが向上し、このデータセットがモデルのパフォーマンスを向上させる可能性があることが示されました。

FreeMan の利用可能性により、人体モデリング、コンピュータ ビジョン、および人間とコンピュータのインタラクションの分野の進歩が促進され、制御された実験室の条件と現実のシナリオとの間のギャップが橋渡しされることが期待されています。