Scientific Reports 誌に掲載された最近の研究では、大規模言語モデル (LLM) の人工知能チャットボットが、一般的なアイテムの別の用途をブレーンストーミングするなどの創造的なタスクにおいて、普通の人間よりも優れたパフォーマンスを発揮する可能性があることが示唆されています。これは多様な思考を反映しています。ただし、これらのタスクで最も高いスコアを獲得した個人は、依然として最もパフォーマンスの高いチャットボットの結果を上回っていました。

発散的思考は、多くの場合創造性に関連する思考プロセスであり、特定のタスクに対して多くの異なるアイデアや解決策を生み出すことに重点を置いています。

通常、代替使用タスク (AUT) を通じて評価されます。このタスクでは、参加者は、短期間で日常の物品の代替用途をできるだけ多く考え出すように求められます。回答は、流暢さ、柔軟性、独創性、精緻さの 4 つの異なるカテゴリーに分類されました。

ミカ・コイヴィストとシモーネ・グラッシーニは、256 人の人間の参加者の反応を、3 つの AI チャットボット (ChatGPT3、ChatGPT4、Copy.Ai) の反応と、ロープ、箱、鉛筆、ろうそくの 4 つの物体に対する AUT の反応と比較しました。著者らは、意味論的距離 (応答がオブジェクトの本来の使用法とどの程度密接に関連しているか) と創造性を評価することによって、応答の独創性を評価しました。

意味的距離は計算手法を使用して 0 ~ 2 のスケールで定量化されますが、人間の評価者は応答の開始者を知らずに主観的に創造性を 1 ~ 5 のスケールで評価します。平均して、チャットボットは意味的距離 (0.95 対 0.91) と創造性 (2.91 対 2.47) に関して人間の応答よりも大幅に高いスコアを出した応答を生成しました。

どちらの指標でも人間の回答の方が幅が広く、最低スコアは AI の回答よりもはるかに低かったですが、最高スコアは一般に高かったです。人間の最良の応答は、8 つの評価カテゴリのうち 7 つで各チャットボットの最良の応答を上回りました。

これらの調査結果は、AI チャットボットが少なくとも人間と同じようにアイデアを生み出すことができることを示唆しています。ただし、著者らは、創造性の評価に関連する単一のタスクのパフォーマンスのみを考慮していることに注意しています。著者らは、将来の研究では、人工知能を創造的なプロセスに統合して人間のパフォーマンスを向上させる方法を探求する可能性があると示唆しています。