これまで未公開のニュースとして、OpenAI エンジニアは今月初め、一連の新しい技術的最適化を通じて、モデル推論のランニングコストが半分以下に削減プラン。

エンジニアがこの新しいテクノロジーを、無料/有料アカウントを登録していない訪問者が ChatGPT にアクセスする ChatGPT シナリオに適用したところ、ピーク時に必要な NVIDIA グラフィックス カードの計算能力はわずか数百元でした。この数値は予想よりも低かった。 (もちろん、OpenAI はこの種の匿名訪問者に対して通話頻度の制限を設定しており、このグループによる ChatGPT の全体的な使用率は高くありません。)
現時点では、OpenAI はこの効率化に使用される具体的な技術的詳細を明らかにしていません。業界では、一般的に使用される最適化手法には、モデルの定量化、キー値のキャッシュ (モデルが過去の計算情報を記憶し、繰り返し操作を回避できるようにする)、リクエストのバッチ処理 (ユーザーのクエリを 1 つずつ処理するのではなくバッチで応答する)、応答を完了するための低電力軽量モデルまたはモデルのサブモジュールへのリクエストのスケジュール設定などが含まれると推測されています。
ただし、今年後半に OpenAI がより大きなパラメータを備えた新世代モデルを発売すると、大きなパラメータのモデル自体のランニングコストが大幅に高くなるため、この一連の最適化技術によってもたらされるコスト削減効果が弱まる可能性があります。
この種の推論最適化技術はと呼ばれます。計算能力倍増技術、これは主要な AI 研究所でも注目されています。アンスロピックのダリオ・アモデイ最高経営責任者(CEO)は、少なくとも2023年半ばからポッドキャストでこのコンセプトについて公に言及している。同氏は当時、同社は単一のコンピューティング能力最適化ソリューションを知っている社内要員の範囲を厳しく制限していたと述べた。関連するテクノロジーが同業他社によってコピーされると、他の AI 研究室に競争上の優位性が与えられることになります。 (計算能力倍増技術とは、モデルのトレーニング段階におけるさまざまな効率最適化手法を指すこともあります。)
このような最適化技術の重要性がますます高まっています。現在、大手 AI 研究開発企業は一般的にサーバーのコンピューティング能力の不足に直面しています。企業がデータセンターの新規建設やリース契約を結んだとしても、プロジェクトの開始から正式な立ち上げまでに数か月、場合によっては数年かかることもよくあります。 (OpenAI は Broadcom と協力して、Nvidia の商用チップと比較してコスト削減を達成することを目標に、大規模モデル動作用の特殊チップを自社開発し、推論コストのさらなる削減を目指しています。)
OpenAIのテクノロジー最適化の導入後、市場は企業が節約されたコンピューティング電力コストにどのように対処するかにも大きな注目を集めています。一方では、OpenAI はユーザーに配当金を渡すことができます。つまり、有料加入者の ChatGPT 呼び出し制限を増やすか、開発者に公開されているモデル インターフェイスの価格を下げるかのいずれかです。現在、古いバージョンのモデルのコール価格は元の価格の数分の一に下がっていますが、推論の最適化が主な理由の 1 つです。
これにより、コスト効率の高いモデル サービス プロバイダーとしての OpenAI の市場での地位がさらに強化されます。最近、競合製品である Anthropic は、モデルの出力効果が優れているにもかかわらず、モデルの価格が高いために物議を醸しています。
一方、OpenAI は、コスト削減による収益を粗利益率の向上に利用することも選択できますが、同社の粗利益率は主に推論コンピューティング能力のコストによって決まります。今年第1四半期のOpenAIの粗利益率は39%で、前年同期の33%から上昇したが、年末時点の目標粗利益率52%とは依然として大きな差がある。
年間目標を達成するには、残りの年間で平均粗利益率 56% を達成する必要があります。 Anthropic の収益は今年上半期に急激に増加し、今四半期は予想外の利益を達成すると予想されており、業界の好況サイクルにおける粗利益率の改善速度が完全に裏付けられています。
現段階では、OpenAI には価格設定に関して絶対的な決定権はありませんが、この推論最適化技術により、粗利益率向上への道が大きく広がることになります。