人工知能 (AI) の超知性は突然現れるのでしょうか、それとも科学者がその出現を予測し、世界に警告する機会を持つのでしょうか?この問題は、大規模な言語モデル (ChatGPT など) の台頭により最近多くの注目を集めており、これらの人工知能はサイズが大きくなるにつれて重要な新機能を獲得しています。ある人が「創発」現象、いわゆる人工知能モデルが信じられないほど急速に知能を獲得する現象を指摘しました。しかし、最近の研究では、こうした状況を「ファントム」(システム テスト中に生じるアーチファクト)と呼び、イノベーション能力の構築は実際には段階的なプロセスであることを示唆しています。

「彼らは『魔法のようなことは何も起こらなかった』とうまく伝えたと思う」と、モジラ財団の計算科学者で人工知能の監査を研究しているデボラ・ラジ氏は言う。 「それは、測定に基づいた、確かな優れた批判です。」

この成果は、昨年 12 月にニューオーリンズで開催された NeurIPS 機械学習カンファレンスで発表されました。

大きいほど良い

大規模な言語モデルは通常、次に何が起こるかを予測して現実的な答えを生成するために、大量のテキストまたはその他の情報を使用してトレーニングされます。特別な訓練を受けていなくても、言語を翻訳したり、数学の問題を解決したり、詩を書いたり、コードを計算したりすることができます。モデルが大きいほど (調整可能なパラメーターが 1,000 億を超えるものもあります)、パフォーマンスは向上します。一部の研究者は、これらのツールが最終的には、ほとんどのタスクで人間のパフォーマンスと同等、あるいはそれを超える汎用人工知能 (AGI) につながるのではないかと疑っています。

新しい研究では、創発性の主張をいくつかの方法で検証しています。まず、科学者たちは 4 桁の加算で 4 スケールの OpenAIGPT-3 モデルの機能を比較しました。絶対精度の観点から見ると、3 番目と 4 番目に大きいモデルのパフォーマンスの差は、0% に近いものから 100% に近いものまであります。しかし、正しく予測された回答の数を見ると、パフォーマンス レベルの差はそれほど極端ではありません。研究者らはまた、モデルに多くのテスト質問を与えると曲線が平坦になることも発見しました。この場合、より小さなモデルが正しく答えることがありました。

次に研究者らは、多くのタスクにおける Google の LaMDA 言語モデルのパフォーマンスを調べました。皮肉を見つけたり、ことわざを翻訳したりする際の知能の急激な向上が示されました。これらの質問は多くの場合、不連続な正解または不連続な答えが含まれる多肢選択式の質問です。しかし、研究者らがモデルが各回答に割り当てた確率(連続指標)を調査したところ、出現の兆候は消えた。

最後に、研究者らはコンピュータービジョンという、出現についてほとんど話題になっていない分野を調査した。彼らは、画像を圧縮して再構築するようにモデルをトレーニングしました。しかし、正しさに対する厳密な閾値が設定されている限り、それらは重大な創発を誘発する可能性があります。 「調査の設計方法は非常に創造的でした」と、人工知能と常識を研究するワシントン大学のコンピューター科学者イェジン・チョイ氏は語った。

まだ除外されていません

研究の共著者でスタンフォード大学のコンピューター科学者サンミ・コエジョ氏は、一部のシステムは予期せぬ「相変化」を示すため、人々が創発を考えるのは不合理ではないと述べた。同氏はまた、この研究が大規模な言語モデル(ましてや将来のシステム)にこのようなことが起こる可能性を完全に排除することはできないと述べたが、「これまでの科学的研究は、言語モデルのほとんどの側面が確かに予測可能であることを強く示唆している」と付け加えた。

Raji 氏は、学術界がニューラル ネットワーク アーキテクチャの開発よりもベンチマークに重点を置いているのを見て喜んでいます。彼女は、研究者がさらに一歩進んで、これらのタスクが現実世界のアプリケーションにどのように関連しているかを尋ねてほしいと考えています。たとえば、GPT-4 のような LSAT (法科大学院入学試験) で良い成績を収めたということは、そのモデルがパラリーガルの仕事もできるということなのでしょうか?

この取り組みは、AI の安全性と政策にも影響を及ぼします。 「AGI関係者は創発能力の物語を宣伝してきた」とラジ氏は語った。根拠のない不安は息苦しくなる規制につながったり、より差し迫ったリスクから注意を逸らしたりする可能性があります。 「モデルは改良されており、役に立ちます」と彼女は言いました。 「しかし、彼らはまだ意識を取り戻すには程遠いのです。」