Microsoft が PC 上で直接実行でき、GPT-4o_5iter.com に匹敵するパフォーマンスを持つ Fara-7B をリリース

Microsoftは11月24日、複雑なタスクをユーザーのローカルデバイス上で直接実行できる「Computer Use Agent（CUA）」として位置付けられる7BパラメータAIモデルFara-7Bの発売を発表した。 Fara-7B は、同じ規模で最高のパフォーマンスを実現するだけでなく、AI エージェントを巨大なクラウドモデルへの依存から解放し、リソースが限られたシステム上で低遅延と強力なデータプライバシー保証を実現します。

レポートによると、Fara-7B のアーキテクチャは、企業ユーザーが最も懸念しているデータセキュリティのニーズに直接対応します。このモデルはローカルで実行できるほど合理化されているため、ユーザーは関連情報がローカルデバイスから流出することなく機密ワークフロー (内部アカウント管理や機密データ処理など) を自動化でき、プライバシーとコンプライアンスが大幅に向上します。

Fara-7B は、「画面表示操作」を通じて Web ページと対話します。人間と同じようにスクリーンショットを使用してページレイアウトを「視覚的に認識」し、クリック、入力、スクロール、その他のアクションを完了するための座標を予測します。ブラウザの基盤となるアクセシビリティツリー構造には依存しません。ピクセルレベルの視覚情報のみを「操作」するこの方法により、複雑なコード構造を持つ Web サイトや解析が難しいページでも適切に動作することができます。

Microsoft Researchのシニアプロダクトマネージャー、ヤシュ・ララ氏は、視覚入力を完全にローカルで処理することで真の「ピクセル主権」が実現され、自動化やデータ推論のプロセスをローカルに維持できるため、医療や金融業界など規制の厳しい業界のコンプライアンスのニーズを満たすことができると述べた。

WebVoyager などの標準テストでは、Fara-7B のタスク成功率は 73.5% であり、より多くのリソースを消費する GPT-4o (65.1%) や UI-TARS-1.5-7B (66.4%) などのモデルよりも優れています。同時に、Fara-7B ではタスクを完了するのに平均 16 ステップしか必要としませんが、UI-TARS-1.5-7B では 41 ステップかかるため、効率が大幅に向上します。さらに、Fara-7B は、精度とコストの最高の価格性能比を示します。

しかしマイクロソフトは、このモデルには幻覚や複雑な命令の処理エラーなど、一般的なAIシステムには依然として問題があることも強調した。リスクを軽減するために、Fara-7B は「キーポイント」メカニズムを導入しています。つまり、ユーザーの個人データや取り消しできないアクション (電子メールの送信、財務操作など) が関与する前に、モデルは積極的に一時停止し、ユーザーの確認を要求します。 Microsoft は、ユーザーが適切なタイミングで介入し、過度の中断を回避できるように、人間とコンピューターの対話をサポートする UI (Magenic-UI) を設計しました。

Fara-7B は、マルチエージェントシステムの多数の成功事例 (Magentic-One によって生成された 145,000 の自律航行軌道) を単一のモデルに圧縮して変換する「知識蒸留」アプローチを使用して開発されました。その基本モデルは Qwen2.5-VL-7B で、最大 128,000 ワードのコンテキストウィンドウと強力なテキストおよび視覚要素の配置機能を備えています。プロセス全体は教師付き微調整に焦点を当てており、モデルが人間の専門家のデモンストレーションを「模倣」できるようになります。

Microsoftは今後について、やみくもにモデルのサイズを拡大するのではなく、「小型モデルをよりスマートかつ安全にする」ことに注力すると強調した。フォローアップ計画は、合成環境の強化学習メカニズム (RL) をトレーニングに導入し、Fara-7B がサンドボックス環境で自律的に学習できるようにすることです。

現在、Fara-7B は MIT プロトコルを通じて Hugging Face および Microsoft Foundry プラットフォームでリリースされており、商用利用が許可されています。ただし、Microsoft は、このモデルはまだ製品レベルに達しておらず、主にプロトタイプの開発とテストに適していることを思い出させます。