人工知能 (AI) はファンドマネージャーに代わる準備ができていませんが、一連の公開テストがその理由を示しています。世界をリードする AI モデルが参加する新たな一連の取引競争において、これまでのところ AI のパフォーマンスはそれほど良くありません。ほとんどのシステムが損失を被りました。彼らはトレードの頻度が高すぎるため、まったく同じ指示を受けたにもかかわらず、まったく異なる決定を下します。。そして、これらの欠陥がモデルが反復的にアップグレードされるにつれて消えるのか、それとも大きな言語モデルと市場の実際の仕組みとの間に根本的なギャップが明らかになるのかどうかは、まだ誰にもわかりません。

テクノロジースタートアップNof1が運営するAlpha Arenaを例に挙げてみましょう。このプラットフォームでは、Anthropic の Claude、Google の Gemini、OpenAI の ChatGPT、イーロン マスクの Grok を含む 8 つの主要な最先端 AI システムが 4 つのコンテストで互いに競い合います。各システムには各試合前に1万ドルが資金提供され、その後2週間にわたり米国のテクノロジー株を独立して取引した。課題には、複数のシグナルでの取引、防御戦略の採用、競合他社のパフォーマンスへの対応、高いレバレッジでの運用などが含まれます。

最終的にポートフォリオ全体の資金の約3分の1を失うことになった。全 32 セットの結果のうち、このモデルが収益を達成したのは 6 回のみでした。 Grok 4.20 は、競合他社のパフォーマンスに関する洞察を提供する課題で最高の結果を達成しました。実行されたトランザクションは 158 件のみでした。アリババの銭文氏は、同じプロンプトの下で 1,418 件の取引を行った。

Alpha Arena は、増え続ける関連実験の 1 つにすぎません。これらの実験は、大規模な言語モデルが金融分野で最も困難な仕事、つまり市場に勝つことができるかどうかをテストしています。このコンテストは学術的に厳密とは程遠いが、これらのシステムがウォール街で最も儲かる危険な仕事の一部を引き受けようとしたときに何が起こるかをこれまでで最も公に実証したものである。

トレーディングは金融業界で完全に AI に引き継がれることに依然として慎重な数少ない仕事の 1 つであるため、これらの暫定結果は重要です。ここ数年、JPモルガン・チェースからバルヤスニー・アセット・マネジメントまでの業界大手は、このテクノロジーを他のほぼすべての側面で使用してきました。現在、大規模な言語モデルは、クオンツ機関でニュースを解析するために、ヘッジファンドでメモの草案を作成するために、大手銀行で不正行為を特定するためになどに使用されています。しかし、実際の金銀取引に関しては、依然として「人間の参加」が業界の信条であり、それは理解できるようです。

Nof1 創設者ジェイ・アジャン
Nof1 創設者ジェイ・アジャン

Nof1 創設者の Jay Azhang 氏は、「大規模な言語モデルだけでは、実際にお金を稼ぐことはできません。基本的に、言語モデルをプレイする機会を与えるには、非常に複雑な制約フレームワーク、サポート システム、データ プラットフォームのセットが必要です。」と述べています。

同氏は、大規模な言語モデルは研究を行うのに優れており、特定のタスクに適切なツールを見つけて呼び出すことにも優れていると述べました。しかし、アナリストの評価、インサイダー取引、市場センチメントの変化など、株価の変動に影響を与える多くの変数のそれぞれがどれほど重要であるかはまだ分かっていない。彼らは取引のタイミングを誤ったり、ポジションのサイズを誤ったり、売買の頻度が高すぎる傾向があります。

AI ブログ Flat Circle は、11 の市場関連の競合プラットフォームを追跡しましたが、そのすべてに少なくとも 1 つの収益性のあるモデルがあります。しかし、これら 11 のプラットフォームのうち、収益性を達成したプラットフォームの中央値モデルは 2 つだけであり、ほとんどのモデルが市場に勝つのに苦労していることを示しています。

ほとんどのアクティブ運用ファンドのパフォーマンスが市場を下回ることが知られているため、この結果は人間のパフォーマンスを反映しています。そして、人間と同じように、これらのモデルも重大なバイアスを受ける傾向があります。複数のコンテストで、AI システムは同じ指示を与えられた場合でもまったく異なる決定を下すことが示されており、これは AI を導入する機関にとって重大な影響を及ぼします。アジャン氏は例を挙げた。アルファアリーナでの最新ラウンドの競争では、クロードは主にロングする傾向があり、ジェミニは空売りを嫌いませんでしたが、チェンウェンはハイレバレッジの助けを借りてリスクを取ることに積極的でした。

「彼らには独自の『個性』があり、人間のアナリストと同じように彼らを管理する必要がある」とインテリジェント・アルファを運営するダグ・クリントン氏は言う。同氏は、モデルが特定のバイアスを示していることを認識させれば、結果を改善できる可能性があると述べた。 Intelligent Alpha は、AI が企業収益をどの程度正確に予測するかについての独自のベンチマークを公開する、大規模な言語モデルを活用したファンドを運営しています。

Intelligent Alpha のベンチマークは、財務書類、アナリストの予測、決算会見議事録、マクロ経済データ、および最大 10 件の Web 検索へのアクセスを備えた 10 の AI モデルを提供します。大規模な言語モデルは、焦点が狭いため、このテストではより積極的に実行されます。 2025 年の第 4 四半期には、予想される収益の変化の方向性を判断する OpenAI の ChatGPT の精度が 68% に達し、これまでで最高の結果を記録しました。クリントン氏によると、これらのモデルは通常、新しいリリースのたびに改良され続けているという。