目を見張るような ChatGPT は本当に eye-opening

休暇をとりましょう。 ChatGPT は更新が非常に速いため、ネチズンの想像力が追いつきません。月曜日、ChatGPT は包括的なマルチモーダル機能を備えたメジャーアップデートを発表しました。今後はシェアバイクで仕事帰りに自転車の調子がおかしいと感じた場合、その部分の写真を撮って直接問い合わせることができるようになります。

それから家に帰って、何も知らない冷蔵庫のコレクションを見ると、ChatGPT が夕食にどのアイテムを選ぶべきかを教えてくれます。

食べて寝た後、まだ眠くない場合は、Bilibili や YouTube でブロガーの声を聞くのに飽きた場合、ASMR サービスを提供することもできます。

1985年9月、『見えない都市』を執筆したカルヴィーノが突然の脳卒中により亡くなった。今年の夏、彼は頭痛のため医師に助けを求めた。その外科医は、これほど複雑で繊細な脳を見たことがないと言いました。

ChatGPT は、信じられないほど美しい脳 (そして目に見えない) として始まりましたが、今では最終的に目、耳、口を備えています。

世界中のネチズン：さあ、ジェスチャーをしましょう。

出典: ツイッター

誰かがそれを試してみましたが、基本的には他の人のためにソフトウェアプロジェクトを開発することができます。

ソフトウェアプロジェクトの誕生は、大まかに次のようになります。まずホワイトボードにワイヤーフレームを描き、配置ロジックを整理し、次にコードを書き始め、最後にインターフェイスを生成します。さて、この問題では、ホワイトボード上の作業はあなたのものであり、ホワイトボードを離れることもあなたのものです。

開発者がワイヤーフレームの写真を撮って ChatGPT に送信すると、ChatGPT がソフトウェアを直接書き込みました。

配置の位置を不規則な矢印に置き換えるなど、小技も加えた。 ChatGPT はそれを見ただけでなく、それを受け入れました。

おそらく私たちは、マルチモダリティがもたらすものをまだ過小評価しているでしょう。

ここでは人工知能と人間の知能の発展が逆になっています。人間には最初に目があり、世界を見た後、言語と論理が形成され、それによって自分が見ている世界をよりよく説明し、理解できるようになります。過去 600 万年にわたる人類の知能の向上は、巨大な機械学習炉になりました。

ChatGPT に関しては、すでに最高の知能レベルを備えており、多くのことを理解できます。それを制限しているのは、テキストによる情報の圧縮であり、そのため、より複雑な問題にアクセスできなくなります。そのような脳に目を与えるとどうなるでしょうか。つまり、画像情報を直接見ることができるようになり、問題を分解する能力が爆発的に高まり始めます。

誰かが ChatGPT に SaaS ソフトウェアのインターフェース図を与え、それを小さなコンポーネントに分解してすべてのコードを書き出すように依頼し、その通りに実行しました。

Unity の編集インターフェイスの大まかなスクリーンショットを渡して、モデルアクションを追加するプロセスを提供するように依頼することもできます。

出典: ツイッター

マルチモーダル機能を開放した後、ChatGPT の理解および推論機能は、少し恐ろしいほどに、より直感的になりました。

少し時間をとって、この一連の写真の意味を理解できるかどうかを確認してください。

出典: ツイッター

ChatGPT の解釈は次のとおりです。

出典: ツイッター

「この一連の漫画は、チーム内でのコミュニケーション、理解、調整の重要性を強調しているようです。」 ChatGPTは最後に終了しました。

この種の理解は、FacebookやUberで働いていたAIエンジニア、ピエトロ・シラノ氏に衝撃を与え、言葉を失った。

目の他に耳と口もあります。

この ChatGPT アップグレードの背後では、音声認識機能はオープンソースの Whisper モデルに基づいており、音声生成機能は追加の TTS (テキスト読み上げ) モデルに基づいています。現在、音声合成は5つの音声をサポートしており、いずれもプロの声優と協力して制作されています。

しかし、2 台の携帯電話で ChatGPT が目の前で「あなたとカラオケを歌おうとしたユーザーはいますか?」について話し合っているのを見ると、 - それはあなたに尋ねているのではなく、別の人に尋ねているのです - それは少し時代を先取りしすぎているようです。

さらに精神科医になる可能性もあるそうです。 OpenAI セキュリティチームのメンバーである Lilian Weng は、音声モードで ChatGPT と非常に感情的なプライベートな会話を交わし、ストレスとワークライフバランスについて話しました。

リリアン・ウェンさんはツイッターで「面白いことに、話を聞いてもらって心が温かくなったと感じる」と語った。彼女は、生産性ツールとしてのみ使用する場合は、より繊細な側面を試した方がよいと提案しました。

出典: ツイッター

ChatGPT 自体の進化に関しては、2022 年に訓練されたマルチモーダル機能を開放することで、将来の進化のための新たな基盤も確立されています。

ChatGPT のチーフアーキテクトであるジョン・シュルマン氏は、1 か月前のピーター・アッビール氏 (ジョン・シュルマン氏がカリフォルニア大学バークレー校で博士課程時代に強化学習に注力していた頃の指導者) のポッドキャストで、既存のデータとモデルのスケーリング手法によってもたらされるパフォーマンスの向上は、一定期間が経過すると限界に達する可能性があると感じていると述べました。その後、アルゴリズム、データセット、データセットのサイズ、およびコンピューティング能力によってもたらされる改善は徐々に減少します。

「マルチモーダル機能を追加すると、大幅なパフォーマンスの向上がもたらされます。これにより、モデルはテキストからは得られない知識を得ることができ、純粋な言語モデルでは達成できないタスクをマスターできる可能性があります。たとえば、モデルは、物理世界やコンピューター画面と対話するビデオを見ることで大きなメリットを得ることができます。すべてのソフトウェアは人間向けに設計されており、モデルがピクセルを観察してビデオを理解できれば、あらゆる種類の既存のソフトウェアを使用したり、人々がそれを使用できるように支援したりすることができます。モデルに新しい機能を与え、モデルが新しいものと対話できるようにすると、実際の能力が大幅に向上します。モデル。」

では、ChatGPT は来月何ができるでしょうか?とても楽しみにしています。