トヨタ・リサーチ・インスティテュート (TRI) は、「ロボット幼稚園」で生成人工知能を使用して、何百時間ものプログラミングやバグ修正を必要とせずに、ロボットに朝食の作り方、または少なくとも朝食を作るために必要な個々の作業を教えました。その代わり、研究者らはロボットに触覚を与え、人工知能モデルに組み込んで、人間と同じように何をすべきかを教えることで、これを短期間で達成した。

研究者らは、タッチが「重要な実現要因」であると述べている。下のビデオにあるように、ロボットに枕状の親指を伸ばすことで (彼らの言葉ではなく、私の言葉です)、モデルは自分がやっていることを「感じる」ことができ、より多くの情報を得ることができます。これにより、視覚だけで行うよりも難しいタスクを簡単に実行できるようになります。

同研究所の器用な運用部門のマネージャー、ベン・バーフフィールド氏は、「彼らが環境と対話しているのを見るのは興奮する」と語った。まず「教師」が一連のスキルをデモンストレーションし、その後「数時間かけて」モデルがバックグラウンドで学習します。 「私たちは午後にロボットを教え、一晩学習させて、翌朝新しい動作を確認することがよくあります。」と彼は付け加えた。

研究者らは、ロボット用の「大規模行動モデル」(LargeBehaviorModel)、つまりLBMを作成しようとしていると述べた。 MITのロボット工学教授でTRIのロボット研究担当副社長であるラス・テドレイク氏は、「LLMが人間の筆記パターンを記録することで訓練されるのと同様に、トヨタのLBMは観察を通じて学習し、その後「一般化して、これまで教えられたことのない新しいスキルを実行する」だろう、と述べた。

研究者らは、このプロセスを利用して、「液体を注ぐ、道具を使う、変形可能な物体を操作する」など、60以上の難しいスキルを訓練したと述べている。彼らは、2024 年末までにこの数を 1,000 に増やすことを目指しています。

Google と Tesla は、RoboticTransformerRT-2 を使用して同様の研究を行っています。トヨタの研究者のアプローチと同様に、彼らのロボットは自らの経験を利用して物事のやり方を推測します。理論的には、AI で訓練されたロボットは最終的には、人間に一般的な指示 (「こぼれたものを掃除する」など) を与える以外は、ほとんど指示なしでタスクを実行できるようになるでしょう。

しかし、ニューヨーク・タイムズ紙が検索大手の調査を報じた際に指摘したように、少なくともグーグルのボットの実現にはまだ長い道のりがある。この種の作業は「時間がかかり、労働集約的」であることが多く、十分なトレーニング データを提供することは、インターネットからダウンロードした大量のデータを AI モデルに供給するよりもはるかに困難です。