大規模な人工知能モデルの最も強力な機能は、間違いなく最も基本的なテキスト処理機能です。しかし、PatronusAI という新興企業の研究者らは、現時点では最も強力な大規模モデルでさえ、米国証券取引委員会 (SEC) からの企業財務報告書を正確に分析できないことを発見しました。

OpenAI の GPT-4-Turbo は、現在市場に出ている人工知能モデルの中で最もパフォーマンスが高いと言えます。しかし、PatronusAI の最新のテストでは、SEC ファイルの質問に対する回答の正答率は 79% のみでした。

PatronusAI の共同創設者、アナンド・カンナパン氏とレベッカ・キアン氏

通常の人工知能ツールがそのような質問に答えるように求められた場合、通常は答えることができないか、「幻覚」を経験することになります。つまり、SEC 文書にない数字や事実をでっち上げてしまうのです。

PatronusAIの共同創設者アナンド・カナッパン氏は、「このようなパフォーマンスは絶対に受け入れられない。真に自動化され本番環境に対応した方法で作業を開始するには、その精度がはるかに高くなければならない」と述べた。

この調査結果は、特に金融などの規制された業界の大企業が、顧客サービスやデータ調査などのビジネスに最先端のテクノロジーを導入しようとする中で、AI モデルが直面する課題の一部を浮き彫りにしています。

昨年末に ChatGPT がリリースされて以来、重要な数値とテキストを迅速に抽出して財務諸表を分析する機能は、チャットボットの最も有望なアプリケーションの 1 つとみなされてきました。 SEC への提出書類には重要なデータが含まれており、AI がそのデータを正確に要約したり、その内容に関する質問に迅速に答えたりできれば、競争の激しい金融業界でユーザーが優位に立つことができる可能性があります。

そのため、大手投資銀行や金融会社はこれに向けた調整を行っています。世界最大の金融情報会社ブルームバーグは、金融分野に特化した大型モデル「ブルームバーグGPT」をリリースした。ビジネス スクールの教授たちは、ChatGPT が金融ヘッドラインを分析できるかどうかを研究しました。 JPモルガン・チェースは人工知能を活用した自動投資ツールを開発している。マッキンゼーの最近の予測では、生成 AI が銀行業界に年間数兆ドルの収益を生み出す可能性があると述べています。

金融分野への応用

しかし、金融業界への人工知能の参入はスムーズではありません。 Microsoft が OpenAI の大きなモデルを使用して Bing チャットボットを初めて立ち上げたとき、その主な例の 1 つは収益に関するプレス リリースの簡単な要約でした。観察者たちは、マイクロソフトが発表した数字が間違っており、一部は完全に捏造されたものであることにすぐに気づきました。

PatronusAI の共同創設者は、大規模なモデルを実際の製品に組み込む際の課題の 1 つは、モデルが非決定的であること、つまり同じ入力に対して毎回同じ出力を生成することが保証されていないことだと指摘しています。これは、企業が正しく機能し、主題を逸脱していないことを確認し、信頼できる結果を提供するために、より厳密なテストを実施する必要があることを意味します。

PatronusAI は、OpenAI の GPT-4 と GPT-4-turbo、Anthropic の Claude2、Meta の Llama2 という 4 つの大規模モデルをテストしました。関連するテストを実施した後、PatronusAI の 2 人の共同創設者は、大規模モデルのパフォーマンスの悪さに驚きました。

PatronusAI の Rebecca Qian 氏は、「大規模なモデルが質問への回答を拒否することが驚くほど頻繁にあり、たとえ答えが文脈に沿ったものであっても、たとえ平均的な人が答えられる質問であっても、拒否率が非常に高いのです。」と述べました。

しかし、同社はまた、人工知能が進歩し続ければ、GPT のような大規模モデルが、アナリストであれ投資家であれ、金融業界の人々を助ける大きな可能性を秘めていると信じています。

OpenAIの代表者は、同社の使用ガイドラインでは、有資格者が情報を確認することなく、カスタマイズされた財務アドバイスを提供するためにOpenAIモデルを使用することを禁止しており、金融業界でOpenAIモデルを使用する者には免責事項を提供することが求められていると述べた。 OpenAIの使用ポリシーには、OpenAIのモデルが財務上のアドバイスを提供するために微調整されていないことも記載されている。