Copilot+PC は、デバイス上で小規模言語モデル (SLM) を実行する最初のコンピューターです。このアプローチの利点は、画像やテキストの生成などのタスクの結果が、クラウドベースの Copilot アプリケーションよりもはるかに高速に生成されることです。 Microsoft は、オンデバイスの人工知能機能を任意のアプリに統合する簡単な方法である AIDevGallery を開始しました。

AIDevGallery アプリは、人工知能機能をアプリに統合するための複数のモデルを試したい開発者向けです。このアプリには、ユーザーがダウンロードして自分のデバイスで実行できる 25 を超えるサンプルが用意されています。さらに、プロジェクトまたはソース コードをアプリケーションに直接エクスポートして、すぐに実行することができます。 Windows 10 および 11 で動作し、x64 と ARM64 の両方のアーキテクチャをサポートします。

現時点では、これにアクセスする唯一の方法は、Visual Studio でプロジェクトをビルドして実行することです。さらに、少なくとも 20GB の空き容量とマルチコア CPU が必要です。また、8GB VRAM を備えた GPU も推奨します。

アプリケーションにはサンプルとモックアップの 2 つのモードがあり、プログラムはそれらをテキスト、画像、コード、オーディオとビデオ、およびスマート コントロールに分割します。


テストモデル

画像生成とビデオ生成のモデルは非常に大きく、5GB に近づきます。 100MB 未満のアップスケーリングに関連する小さなモデルから始めます。スクリーンショットを撮り、CPU を使用してスケーリングを試み、作業中に CPU と GPU を切り替えてリクエストを処理しました。

この低構成の仮想マシンでは、スケーリング プロセスにかかる時間は 30 秒未満で、メモリ消費量は瞬時に 1GB に増加しました。アプリケーションは、解像度 9272*4900 の画像のアップスケール バージョンを表示します。グラフィック要素、特にテキストは深刻な影響を受け、読みにくくなります。


生成されたイメージを大きなウィンドウまたは全画面でプレビューするオプションはありません。ディスクに保存するダウンロードオプションさえありません

DetectHumanPose という別のモデルを試しました。画像内の人物の位置を特定できます。基本的な歩行者を正確に識別することができましたが、いくつかのアプリを開いているデスクトップのスクリーンショットの位置マーカーも表示し始めました。


これらのモデルがアプリケーションにどのように統合されるかはわかりませんが、これらの機能の一部はローカルで実行できます。もちろん、これらのモデルの PC には、より多くのストレージ容量と 16 GB 以上のメモリを備えた強力な CPU が必要です。

テキスト プロンプトを画像に変換するために 5 GB モデルをダウンロードする価値がありますか、それともこの機能を Web アプリに実装するために 30 秒待つ価値がありますか?明らかに、これらの機能のほとんどは、Windows 11 ユーザー ベース全体にアピールするものではなく、非常にニッチなユースケースと実装環境を対象としています。