10 月 27 日、美団は、美団 LongCat チームが LongCat-Video ビデオ生成モデルを正式にリリースしたと正式に発表しました。このモデルは、Diffusion Transformer アーキテクチャに基づいており、Wensheng ビデオ、Tusheng ビデオ、およびビデオ継続の 3 つのコア タスクをサポートでき、オープンソース モデルの中で高度なレベルに達していると主張しています。

レポートによると、LongCat-Video は解像度 720p、フレーム レート 30 の高解像度ビデオを生成できます。その優れた機能は、最大 5 分間の一貫したビデオ コンテンツをネイティブに生成できることです。このモデルは、ビデオ継続の事前トレーニング、ブロックのまばらな注意、その他のメカニズムを通じて、長いビデオ生成における画像の中断や品質の低下などの一般的な問題を解決し、タイミングの一貫性と動きの合理性を維持することを目的としています。
効率の観点から、このモデルでは 2 段階生成、ブロック スパース アテンション、モデル蒸留などのテクノロジーが使用されています。関係者によると推論速度は10倍以上向上したという。モデルパラメータの数は136億で、VBenchなどの公開テストで強力なテキスト整列と動きの一貫性を示しました。
「世界モデル」を構築する技術的な試みとして、LongCat-Video は将来、自動運転シミュレーションや身体化されたインテリジェンスなどの長期的なモデリングを必要とするシナリオに適用される可能性があります。このモデルのリリースは、ビデオ生成と物理世界シミュレーションの分野における Meituan にとって重要な一歩を示しています。