華中科技大学は、同校ソフトウェアスクールのチームがマルチモーダル大型モデル「Monkey」をリリースしたとの声明を正式に発表した。このモデルは、画像記述と視覚的な質疑応答を得意とし、世界の「観察」を実現し、綿密な質疑応答コミュニケーションを行い、画像を正確に記述することができます。


公式の紹介によると、18 のデータセットの実験において、Huake University Monkey モデルは特に良好なパフォーマンスを示しました。画像説明と視覚的な質疑応答タスクの点で、Microsoft の LLAVA、Google の PALM-E、Alibaba の Mplug-owl などの多くの既存の有名なモデルを上回っています。

また、Monkey は、テキスト中心の質問と回答のタスクで大きな利点を示し、一部のサンプルでは業界で認められたリーダー GPT-4V を上回っています。

モンキーの特徴は「絵を見て話す」能力に優れていることです。詳細な記述タスクでは、Monkey は画像の詳細を認識する能力を実証し、他の大規模なマルチモーダル モデルが無視したコンテンツを検出できました。

もう 1 つのハイライトは、最大 1344x896 ピクセルの解像度で画像を処理できることです。これは、他のマルチモーダル大型モデルが現在処理できる最大サイズの 6 倍です。

現在業界で処理されている画像の最大解像度は 448×448 ピクセルであると報告されています。

チームが世界最大のコード ホスティング サービス プラットフォームである GitHub 上で Monkey コードをオープン ソースにしたことは言及する価値があります。