水曜日、OpenAI は ChatGPT のマルチモーダル機能の解禁を発表したばかりです。さて、それがオンラインになるとすぐに、ネチズンはすぐに熱狂します。次に、ChatGPT の画像認識機能がどれほど強力であるかを見てみましょう。

01

写真を撮ってアップロードすると、コードがすぐに生成されます

ネチズンは会議中にビデオを録画し、ホワイトボードの写真をアップロードし、ChatGPT にコードを書くように依頼しました。


また、手描きのスケッチをアップロードして、ChatGPT に HTML で Web ページを作成するように依頼することもできます。


シューシュー、コードは毎分出てきました。

これは、GPT-4 が今年リリースされたばかりのときに Greg Brockman によって実証されたマルチモーダル機能にすぎません。


別の例として、Todolist ノートブックの写真を撮ります。


次に、GPT-4 に PythonTkinterGUI を作成させ、実装しました...


02

一目で翻訳された古代の巻物写本

こちらは 17 世紀の錬金術師ロバート ボイルの別の写本です。 GPT-4はそれを読み取ることができますか?


これは簡単です。


たとえば、 「カタルーニャ語の薬用ミイラ薬マニュアル」。


ChatGPT は文字起こしや翻訳もできます。


UCSC歴史学のベンジャミン・ブリーン准教授はこう語った。

これは歴史家に大きな影響を与えるだろう。特定の原稿セットでトレーニングされたカスタム マルチモーダル GPT-4 を想像してください。文字起こしだけでなく、翻訳や分類も可能です。 (私の意見では、LLM を使用せずに書くことは大きな問題です)。


03

チャートの概要も非常に優れています 6

GPT-4 にコマンドを発行して、チャートに基づいてデータを抽出することもできます。


その後、Python コードを作成してグラフを複製し、よりグラフらしくすることができます。


次に、株価トレンドチャートを投げると、特徴を分析して要約することもできます。


04

絵を読むと「IQが優れる」

GPT-4 に抽象的な画像を与えます。

実際、この4枚の絵が表現したい「コミュニケーションの大切さ」の比喩を的確に捉えることができる。これはとんでもないことだ。


GPT-4Vは医師の手書き文字も読み取ることができます。



日本のネチズンの中には、「ドラゴンボール」の孫悟空を直接使用して ChatGPT テストを受ける人もいました。


「あなたは人間ですか」という確認コードもさまざまです。


自分の作品をアップロードすると、GPT-4 が改善のための提案を提供することもできます。


一部のネチズンは、GPT-4V が kosmos-1 論文のこの質問に対して正しい答えを与えているが、推論プロセスに誤りがあることを発見しました。


この機能により、子供たちは宿題をする必要がなくなります。


05

ネチズンの大きなまとめ

上記の経験に加えて、一部のネチズンは GPT-4V の独自のテストを紹介する長い記事を書きました。


テスト 1:ビジュアルQ&A

絵文字を与えて、GPT-4V がそれをどの程度理解できるか見てみましょう。


GPT-4V は、なぜそれが興味深いのかをうまく説明し、画像の個々のコンポーネントとそれらがどのように接続されているかについて言及しています。

GPT-4V は、提供された括弧で囲まれたコメントを読み取り、応答できることは注目に値します。

それでも、GPT-4V は「GPU」ではなく「NVIDIABURGER」というラベルを付けるという間違いを犯しました。

次に、コイン、つまりアメリカの 1 ペニーの写真を使ってもう一度テストします。 GPT-4V は、コインの起源と額面を正常に識別できます。


しかし、それが複数のコインと GPT-4V の写真の場合、私はどれくらいのお金を持っているでしょうか?

現時点では、コインの数のみを識別できますが、通貨の種類は識別できません。


テスト 2: OCR 認識

Web ページからテキスト画像をキャプチャしてアップロードします。 GPT-4V はコンテンツを非常によく読み取ることができます。


テスト 3: 数学 OCR

数学 OCR は、数式を対象とした特殊な形式の光学式文字認識です。

ネチズンは GPT-4V に数学的な問題を尋ね、それを文書のスクリーンショットの形で提示しました。

この問題には、画像上に「解決してください」というプロンプトが表示され、2 つの角度を指定してジッパー ラインの長さを計算することが含まれます。



このモデルは、三角法を使用して解決できる問題を特定し、使用する関数を特定し、問題の解決方法を段階的に説明します。 GPT-4V は質問に対する正しい答えを提供します。

そうは言っても、GPT-4V システム カードには、モデルに数学記号が欠落している可能性があると記載されています。

紙に手書きされた方程式や式を使用したテストなど、さまざまなテストでは、数学の質問に答えるモデルの能力が不十分であることが示される場合があります。

テスト 4: オブジェクトの検出

GPT-4V に画像内の犬を検出させ、犬の位置に関連する x_min、y_min、x_max、および y_max の値を提供します。 GPT-4V から返された境界ボックスの座標は犬の位置と一致しません。


GPT-4V は画像の質問に答えるのに非常に強力ですが、画像内の物体がどこにあるかを知りたい場合、このモデルは微調整された物体検出モデルに代わることはできません。

テスト 5: 検証コード

GPT-4V は検証コードを含む画像を認識できることが判明しましたが、多くの場合テストに失敗しました。

信号機グリッドを選択する例では、GPT-4V は信号機を含むグリッドをより少なく選択しました。


テスト 6: クロスワード パズルと数独

Sudoku テストでは、GPT-4V はゲームを認識しましたが、ボードの構造を誤解したため、不正確な結果を返しました。


ところで、ChatGPTネットワーク機能が復活しました。