DeepSeek R1 フルバージョンを実行する Apple M3 Ultra の実際のテスト: 8 カードより高速 A100

最近、Bilibili の UP ホスト「ただし張平平」がビデオを共有しました。これは、6,710 億パラメータの DeepSeekR1 モデルを実行する Apple M3Ultra の完全版のテスト結果を示しています。その速度は 8 枚の A100 グラフィックスカードよりもさらに高速ですが、コストははるかに低くなります。

6,710 億パラメータの DeepSeekR1 モデルを実行するには、通常、6 ～ 8 台の A100 を搭載したプロフェッショナルグレードのサーバーが必要です。総額は100万元をゆうに超えており、一般ユーザーには手が出せないほどだ。

ただし、M3Ultra の完全版では、MacStudio のみで同様のパフォーマンスを実現でき、コスト効率が非常に優れています。

テスト結果は、DeepSeekR1 モデルを実行した場合、8 枚の A100 グラフィックスカードのパフォーマンスが 16.41Tokens/s であるのに対し、M3Ultra のフルブラッドバージョンは GGUF 形式で 15.78Tokens/s に達することを示しています。

ユニファイドメモリを活用できる MLX 形式に切り替えた後、速度は 19.17Tokens/s に向上し、8 枚の A100 グラフィックスカードを超えました。さらに、M3Ultra が DeepSeekV3671 億パラメータモデルを実行したときの速度も 19.66Tokens/s に達しました。

ただし、これは M3Ultra がすべてのシナリオで A100 を超えることができるという意味ではありません。 1 人のユーザーが単一モデルの推論を実行する場合、主にメモリ帯域幅と容量に依存するため、A100 の可能性を完全に実現することはできません。マルチユーザー推論や大規模モデルのトレーニングシナリオでは、M3Ultra は A100 と比較することはできません。

さらに、M3Ultra は大規模言語モデル推論速度テストでも良好なパフォーマンスを示しました。Llama3.170B、Gemma227B、または Qwen2.514B モデルのいずれであっても、その速度は他の M シリーズチップよりも大幅に優れています。 M2Ultra と比較して、速度はそれぞれ 13%、34%、18% 向上しました。

今回テストしたM3Ultraの完全版は512GBのユニファイドメモリを搭載しており、総額は74,249元だ。ほとんどのユーザーにとって、そのような大規模なモデルを実行する必要がない場合は、ユニファイドメモリ容量を適切に削減してコストを節約できます。