Apple、AI モデルのトレーニング戦略を明らかに: 大規模な Web スクレイピングから秘密裏に承認されたトランザクションと合成コンテンツまで

WWDCカンファレンスでは、同社のオペレーティングシステム向けに今後登場する新しいビジュアルデザイン言語であるリキッドデザインに焦点が当てられ、Appleはデバイスとクラウドの両方をサポートする次世代のAI基盤モデルも発表した。カンファレンスの後、テクノロジー大手は、ユーザーとテクノロジーコミュニティにモデルのトレーニングと最適化プロセスについての洞察を与える詳細な技術レポートを通じて、AppleのAI戦略をより深く理解する用意ができているようだ。 Apple はレポートの中で、モデルをトレーニングする際にプライバシーと効率を真に重視していることを強調しました。

現在の人工知能の分野ではそれほど重要ではありませんが、Appleは「Apple Intelligence Basic Language Model - 2025 Technical Report」と呼ばれる基本モデルに関する詳細なレポートをリリースし、最新の人工知能モデルの主要な要素について詳しく紹介しています。このレポートでは、モデルのアーキテクチャからトレーニング段階、トレーニング後の段階、モデルの微調整方法まで、ほぼすべてをカバーしています。このレポートでは、プライバシー侵害を回避しながらモデルの効率を向上させるためにモデルの技術的改善を確実に行うために使用される方法についても調査しています。

Appleはこれまで、開発者が利用できるオンデバイスAIモデルとそれが持つ30億個のパラメータを共有してきたが、その構造がこれまでのところまばらであることが限界となっている。伝えられるところによると、モデルは効率を向上させるために複数の部分に分割されています。最初の部分はブロック 1 と呼ばれ、コア構成要素 (変換レイヤーと呼ばれる) の 60% 以上が含まれています。するとAIは言語の主な表現を理解し、応答を生成します。

ブロック 2 と呼ばれる 2 番目の部分は、キーと値の投影という 2 つのメモリ集約型の技術コンポーネントが削除されたため、より軽量になっています。この戦略のおかげで、Apple はモデルのメモリ使用量を約 38% 削減し、モデルの応答時間を短縮することさえできました。同社は AI モデルのパフォーマンスをネイティブに向上させる方法を検討しており、数年前にはデバイスのメモリ容量よりも大きなモデルを実行するというアイデアを検討していました。最終的には確立されたソリューションを採用することはできませんでしたが、ハードウェアの制限やその他の課題に対処する方法を模索してきました。

AI モデルのサーバー側に関しては、Apple はプライベートクラウドコンピューティングシステムがカスタマイズされたアーキテクチャを採用していることを保証します。このアプローチは Parallel Orbit Mixed Experts (PT-MoE) と呼ばれ、簡単に言えば、大規模な AI モデルをエキスパートと呼ばれる小さな部分に分割する賢い戦略です。モデルを専門家の混合物に分割することで、モデルを毎回完全に実行する必要がなくなりました。代わりに、現在のタスクに関連する専門家のみに焦点を当てることができます。ドメインの専門知識を持つモデルの部分のみがアクティブ化されるため、パフォーマンスが節約され、効率が向上します。

さらに、Apple は「Parallel Track Transformer」と呼ばれる新しい Transformer アーキテクチャも設計しました。これは、重要なポイントでのみ連携して動作する複数の独立して実行されるトラックを備えています。このため、このモデルではシステム全体の遅延が発生しません。このテクノロジー巨人は、Apple Intelligence の最大の問題点の 1 つである言語サポートの制限にも対処しました。

新しいモデルで、Apple は多言語機能を大幅に向上させました。言語サポートを拡大するために、Apple はトレーニングプロセスにおける英語以外のデータの割合を 8% から 30% に増やし、実際のコンテンツと AI によって生成されたコンテンツをカバーすることで、モデルの理解を向上させ、より広範囲の言語をサポートしました。これにより、書き込みツールなどの機能がより適切に動作するようになります。新しい AI システムをトレーニングする際、Apple は、以前のモデルでも使用されていた自社開発の Web クローラーである Applebot によって収集された Web データに大きく依存しています。興味深いことに、Apple はプライバシーを尊重しているため、Web サイトがクロールされたくない場合、そのコンテンツは使用されません。

同社はモデルをトレーニングするためにさまざまな手法を使用しています。主に公開 Web データをトレーニング資料として使用します。 Apple は無関係なコンテンツを除外し、有用で関連性のあるデータセットに焦点を当てる傾向があります。同様に、テクノロジー大手はライセンスコンテンツをパブリッシャーに依存しているが、依存しているメディア企業の名前は明らかにした。同社はまた、特に画像言語タスク、コード、または命令の実行に関して、より適切な微調整を行うために、より小規模なモデルを使用して合成データを収集します。

この巨人にはスクリーンショットや手書きのメモを含む 100 億以上の画像とキャプションのペアがあるため、このマルチアプローチには視覚データも含まれます。また、独自のモデルを使用して、より豊富な字幕を生成します。これらのトレーニング方法はすべて、Apple がよりスマートで強力なモデルを構築するのに役立ちます。 AI モデルのトレーニングに対する Apple のアプローチは非常に明確です。これは、システムの核となる価値であるプライバシーを損なうことなく、システムの強力さと多用途性を維持するためのバランス戦略です。