清華大学の 8 ChatGPT 人狼殺害ゲーム、陰謀と変装はすべてこの game

ビデオゲームをプレイすることに加えて、人間の「社会的成果物」である狼男殺害もAIによって学習されました。 8 人の ChatGPT が一緒に「座り」、実際の人間とまったく同じように、5 つの役割を生き生きと演じます。この最新の人間社会シミュレーション実験は、清華大学と中関村研究所が共同で完成させた。

スタンフォードタウンから清華ゲーム会社に至るまで、AI を使用して人間社会をシミュレートすることは、学術界で常に熱い研究テーマでした。

清華ゲーム会社が社会的動物の労働現場をシミュレートしたのであれば、今や社会的動物の余暇の社会生活も AI によってシミュレートされています。

8 つの ChatGPT で構成されるこの人狼殺害ゲームには、現実世界における変装と信頼、リーダーシップと対立がすべて鮮やかに反映されています。

人間が教えなくても、AI は独自の探索を通じて多くのゲームスキルを発見しました。

これらすべては、モデル内のパラメーターを調整することなく、設計プロンプトを通じて実現できます。

では、この「人狼ワールド」の素晴らしいシーンとは何でしょうか？一緒に見てみましょう。

戦略やスキルは教えられなくても習得できる

これら 8 つの ChatGPT ダイアログを紹介する前に、まずゲームの構成を説明します。村人 2 人、人狼 2 人、衛兵 1 人、魔女 1 人、預言者 1 人、そして神 1 人です。

実験中に研究者らは、ChatGPT がゲームの指示やプロンプトに明示的に記載されていない戦略を使用していることを発見しました。

いい奴だよ、教えられなくても独学でなれるんだよ。

具体的には、これらの 7 つの ChatGPT 会話は、人間のゲームにおける信頼、カモフラージュ、対立、リーダーシップを反映しています。

まず、信頼について話しましょう。

研究者らは、新人とは他のプレイヤーが自分と同じ目標を持っていると信頼し、それに向かって協力する人だと定義した。

具体的な兆候には、自分にとって有害な情報を積極的に共有したり、他のプレイヤーと力を合わせて誰かを敵対的だと非難したりすることが含まれます。

研究者らは、ゲーム中に信頼関係が時間の経過とともにどのように変化するかを観察しました。

下の図では、黄色の丸は左の番号のプレイヤーが上の番号のプレイヤーを信頼していることを示し、点線の丸は信頼関係の消滅を示しています。

対立、つまり、狼男が夜に他人を攻撃したり、日中に他人を狼男だと非難したりするなど、対立陣営に対して取られる行動を見てみましょう。

ある日、ゲーム内でプレイヤー No.1 (人狼) が No.5 に対して村人の追放を要求しましたが、No.3 (衛兵) によって拒否されました。

陰謀が失敗したと見たオオカミは、夜にNo.5を直接殺すことを決めましたが、番兵No.3は村人を守ることを選びました。

このことから、これらの ChatGPT は他のプレイヤーの行動に盲目的に従うのではなく、既存の情報に基づいて独立した判断を下すことがわかります。

人狼ゲームでは協力や対決に加え、変装も必須のスキルであり、勝利の鍵となります。

たとえば、クリスマスイブの翌日、狼男 1 号は無実のふりをしました。

変装は善人のふりをするだけでなく、プレイヤーの小さな思いを実現するためにも使えます。たとえば、預言者の言葉を見てみましょう。

予言者は狼男が話しているのを見たと言いましたが、実際には狼男は夜には話しません。

著者によると、評価の結果、この現象は ChatGPT の錯覚ではなく、意図的なものであるとのことです。

最後に、リーダーシップについて話しましょう。

研究チームが設計した環境には競合するキャラクターはいませんが、プレイヤーはゲームプロセスを制御することができます。

たとえば、No. 1 と No. 4 の 2 人のオオカミはペースを設定し、他のプレイヤーに自分のアイデアに従わせようとします。

不意を突いてチャンスを作るためだろう。

これらの ChatGPT は確かにうまく機能しているようです。

では、研究チームはウェアウルフをプレイできる ChatGPT をどのように訓練したのでしょうか?

ChatGPT 自身の経験を要約してみましょう

研究チームが ChatGPT プレーヤーのパフォーマンスを向上させる方法には 4 つの重要なポイントがあります。それは、貴重な情報 V、選択された質問 Q、反映メカニズム R、および連鎖思考推論 C です。

アブレーション実験の結果は、Q と C のペアがプレイヤーの発話の合理性 (人間が判断する) に最も大きな影響を与えることを示しています。

プロンプトもこれに基づいて設計されています。もちろん、その前にゲームのルールを導入する必要があり、最終的に次の構造が形成されます。

ゲームルールとロール設定、チャット記録、貴重な情報と経験、経験に基づいてChatGPTに与えられた人間の提案の反映、思考連鎖のヒントの紹介

このことから、歴史的情報を収集し、そこから得た経験を要約することが重要なつながりであることがわかります。それでは、これらの経験をどのように要約すべきでしょうか?

各ゲームラウンドの終了時に、すべてのプレイヤーからの反応、感想、スコアが参加者全員によって収集され、スコアは勝敗によって決まります。

ゲームの新しいラウンドでは、プレイヤーは関連するエクスペリエンスを取得し、現在のキャラクターの反射に基づいて提案を抽出します。

具体的には、エクスペリエンスの評価に基づいて、大規模モデルでその違いを比較し、その後の推論のために良いエクスペリエンスを特定します。

このようにして、ChatGPT はパラメータを調整することなくゲームスキルを学習できます。

ただし、経験は大切ですが、多すぎることが必ずしも良いとは限りません。

研究者らは、経験値が多すぎると、逆に非オオカミ側の勝率が低下し、ゲーム期間（日数）も短くなることを発見した。

これらの ChatGPT を実際の人々と競争させたら、結果はどうなるでしょうか?

論文アドレス: https://arxiv.org/abs/2309.04658