元 Windows コア開発者の Dave Plummer は、47 年前の PDP-11/44 コンピューターで Transformer モデルを実行することに成功し、6MHz CPU と 64KB メモリで AI トレーニングを完了しました。この PDP-11 によって実行されるモデルは ATTN-11 と呼ばれ、Damien Boureille によって PDP-11 アセンブリ言語で書かれ、1216 個のパラメーターのみを含む単層、シングルヘッドのトランスフォーマーを実装します。

モデルのタスクは単純に見えます。つまり、数値の文字列を入力し、その反転した結果を出力します。ただし、このタスクを完了するには、モデルが順序逆転の構造規則を独立して学習する必要があります。プラマー氏は、これが ChatGPT などの最新の大規模モデルの動作本質を正確に捉えていると信じています。

非常に限られたハードウェアで実行するために、ATTN-11 は多くの極端な最適化を行っています。順伝播精度は 8 ビット固定小数点数に削減され、すべての CPU サイクルが最適化されます。

最後に、プラマーはキャッシュボードを使用して、約 350 のトレーニング ステップの後、モデルは 100% の精度に達し、プロセス全体に約 3.5 分かかりました。

プラマー氏はビデオでトレーニングのプロセスを説明しています。「モデルは最初は愚かで、損失が大きくなりますが、ある時点で重みが収束し始め、注意メカニズムが反転マッピングを発見し、マシンは推測から認識までの目に見えない一線を越えます。」

彼の核心的なポイントは、現代の AI の本質は神秘的な力ではなく、「マシンは何千もの重み付けされた接続の強度を繰り返し更新し、次の答えは前回よりわずかに間違いが少なくなる」ということです。

プラマー氏は最後に、コンピューティングリソースがますますボトルネックになる中、究極の効率性と最適化の追求に立ち返ることができる企業は、将来のAI競争においてより大きな優位性を得ることができるだろうと指摘した。