6 月 18 日、DeepSeek の Web ページとアプリを開くと、ほぼすべてのユーザーが、以前のクイック モードとエキスパート モードの右側に画像認識モードがあることに気づくでしょう。これは、グレースケールによるテストを行っていない多くのユーザーが、最終的に DeepSeek を使用して画像を処理できることを意味します。

現時点では、DeepSeek は正式に一般公開されておらず、モデルのインターフェイスにはまだ「内部テスト中の画像理解機能」と表示されています。今回は完全なテストプッシュであるとの憶測がある。しかし、DeepSeekマルチモーダルチームの責任者であるChen Xiaokang氏は本日ソーシャルメディアで、Webページとアプリケーションでビジュアルモードが正式に開始されたと述べ、「これらの新しい目を試してください」と述べた。

言及する価値があるのは、ほんの5日前、Chen Xiaokangがホットスポットを追跡し、Auntie Goose Legの「緑のアヒルの脚」を識別のためにDeepSeekに送ったことです。返信から判断すると、DeepSeekはそれがガチョウの足ではないことを特定でき、緑色が食品の安全性を脅かす可能性があることも示唆した。 「もし当時DeepSeekが存在していたら、今年『アヒル戦争』は起きなかったでしょう。」彼は冗談を言いました。

このコメント欄では、ビジュアル機能がまだ利用できない理由を尋ねるユーザーもいます。その際、陳暁康氏は「グレースケール(テスト)を使えるのは一部のユーザーだけだ」と答えた。今年4月末にDeepSeek画像認識モードのグレースケールテストを開始し、5月には幅広いユーザーに公開した。しかし、テストのためにすべてのユーザーに公開されるようになるまで、多くのユーザーはまだそれを使用していませんでした。
DeepSeek は画像認識においてどの程度効果的ですか?中国経済新聞の記者が始めて体験したところ、状況によって効果が異なりました。
私は DeepSeek に上海の外灘の建築図面を送り、それがどこにあるのか尋ねました。 DeepSeek は 16 秒で通常の応答を返しました。 4つの主要な建物を分析し、白いアーチ橋は「おそらくZhapu Road Bridgeである可能性が高い」と答え、これは古典的な写真のアングルです。

しかし、DeepSeek は最近人気のカーボベルデのゴールキーパー、ヴォジーニャを認識できないかもしれません。 DeepSeek は 1 分以上かけて深く考えました。考える過程でカーボベルデの名前が何度か出たが、特定の選手に対応することはできなかった。結局、完全に間違った答えを出してしまった。

これは、ウォズニアが以前はあまり知られておらず、大規模なモデルのトレーニング データに含まれていなかったためと考えられます。同時に、DeepSeekの画像認識モードにはオンライン検索機能がないため、現在の注目人物を特定することはできません。
記者は、ソーシャル プラットフォーム上で、長い間グレースケール テストの対象となっていたユーザーからのフィードバックがあることに気づきました。 DeepSeekの画像認識能力は国内モデルの平均レベルを上回っていましたが、海外上位モデルと比較すると、複雑な画像の理解や詳細な推論にはまだ差がありました。
具体的には、毎日のスクリーンショット、エラー メッセージ、表、論文、Web ページ コンテンツなどのシナリオでは、DeepSeek の画像認識は基本的に十分であり、非常に高速です。ただし、多層ロジック フローチャートや複雑なデータ チャートなど、より複雑な図の場合、精度は低下し始めます。しかし、上記のユーザーは、価格とオープン性を考慮すると、依然として DeepSeek を使用する価値があると考えています。
ちょうど 4 月 30 日、DeepSeek はマルチモーダル テクノロジーに関するレポート「Thinking with Visaul Primitives」をリリースし、マルチモーダル テクノロジーの背後にある詳細を説明しました。しかしすぐに、役人がマルチモーダルウェアハウスと論文の原文を一夜にして削除し、Github インターフェースがすでに「404」ステータスになっていることに誰もが気づきました。
当時、外部からはさまざまな憶測が飛び交った。 DeepSeek はまだ準備ができていないと考える人もいましたが、この論文が明らかにした情報が多すぎると考える人もいます。 DeepSeekは論文の中で、現在のマルチモーダルモデルが複雑なタスクで破綻するのは、不可視性(認識ギャップ)のせいではなく、「不正確なポインティング」(引用ギャップ)のせいだと考えている。マルチモーダル インテリジェンスの未来は、単に「より多くのピクセルを表示する」ということではなく、言語と視覚の間に正確かつ明確な参照ブリッジを構築することです。
現時点では、DeepSeek は画像認識モードの開始を公表していません。このモードの技術的な詳細とさらなるニュースは、正式な導入を待つ必要があります。