DeepSeek にまた大きなアップデートがあります。今回はついにvisible

D 神様また放送中？本物か偽物か？ディープシークは長い間それを我慢していましたが、最近になってようやくそれを吐き出し始めました。先週、彼らは静かに V4 を発売し、その後 2 つの大幅な値下げを行いました。。リャンシェン、また衆生を救いに来たのですか？その結果、今日、突然やって来て、マルチモーダル機能を備えたDeepSeekという灰色のテストの波が押し寄せてきました。正確に言うと画像認識です。

カードを確認したところ、本当でした。

何か新しいことに挑戦したい人は、今すぐDeepSeekを開いて見てください。

インターフェースに「画像認識モード」がある場合、おめでとうございます。内部でテストされたあなたは幸運です。V4 の本物のマルチモーダルバージョンを無料で直接購入できます。

DeepSeek の研究者である Chen Xiaokang 氏は、見かねて投稿しました。私たちクジラはついに目を持ち、もはや国家サーバーの盲目の修道士ではなくなりました。

なぜみんなそんなに興奮しているのですか？実際、DeepSeek にはマルチモダリティがないため、長い間批判されてきました。海外の大手企業である ChatGPT、Gemini、Claude の 3 社は、以前からマルチモーダル機能を備えていました。 DoubaoやQianwenなどの国産モデルも好調だ。

期待の国産ライトですが、長年画像すら認識できませんでした。 OCR、つまり画像内のテキストを認識することのみに依存します。使用感は本当に悪いです。

さて、この欠点がようやく埋まりました。

早速、テストに進みましょう。

まず第一に、従来の OCR を取り除き、全体像を実際に見ることができます。これなら安心できますね。

たとえば、青で書かれた「これは赤いテキストの行です」というテキストを与えた場合、従来の OCR だけを使用すると、テキストが「これは赤いテキストの行です」ということしか認識できず、テキストが青であることは認識されません。（認識できない場合もあります）

ビジュアルモードをオンにすると、これが青と赤の文字の行であることを正確に認識し、私のユーモアも感じ取ってくれました。

それだけでなく、視覚的な推論機能も備えています。

皆さんこのミームを見たことはありますか？私の知性があれば、絵に書かれていることは必ず理解できると信じています。

そこで、DeepSeekに送信して、おかしな点の分析を手伝ってもらうように依頼しました。

考えた結果、それを理解しただけでなく、「Golden Dalia」、「Silver Dalia」、「Copper Dalia」のローカライズされた翻訳も作成しました。笑わせてもらいました。

それから、同僚が運転中に撮ったランダムな写真を送りました。実際にはかなりぼやけていて、外観と照明効果に関する一部の情報しか分析できませんでした。

その結果、その車は確かにスバルであると推測し、13秒考えて結論に達しました。

教師 D が数学の専門家であることを考慮して、別の数学関連のミームを彼に送信しました。正直に言うと、シーチャオにはほとんど理解できませんでした。それは彼の兄の義父でした。

D先生の説明は相変わらず完璧です。

単純な操作を理解しただけでなく、その中にいくつかの同音異義語も確認できました。実数部分を取るということは虚数「i」を削除することを意味し、それは「Eye」を削除することを意味し、目を削除することを意味します。逆三角形はグラデーションで「Grad」、「Graduate」とほぼ同じなので、小さな顔に学士帽をかぶせました。

数学の知識を忘れてしまった人は、一字一句復習することができます。

ちなみに、この3.5mmプラグをどこに差し込むかなど、生活上の問題点もいくつかテストしてみました。

この四角いUSBポートはどこに差し込めばいいのでしょうか？

非常にシンプルですが、焦点が合っていないときの私のランダムなショットを理解することができ、日常業務には有能であると考えられます。

しかし、実際、Shichao が実際にテストしたところによると、D 先生の現在のバージョンは無敵ではありません。

たとえば、地球のとても美しい夜景の写真を与えました。

DeepSeekもそれをはっきりと見て、この写真は国際宇宙ステーションから来たものだと言いました。

でも、実際に写真を裏返して見てみると、この写真は夕日の下の街の写真です。これは逆さまの視点です...

それから、マルチモーダルの専門家として認められているジェミニにそれを投げました...そして、彼は本当にそれを見ました。いや、知恵を失ってもそんなに強いのか？

まだまだマルチモダリティの王、ハジクジラを頑張らせられない。

一部顔認識が含まれており、たまに不具合が発生します。たとえば、お手玉の写真を投げたところ、認識されたのは、ステーション B の UP リーダー、Luo Xiang でした。この古典的な目の錯覚の問題もあります。 2 つのボールは明らかに同じサイズではありませんよね?その結果、D先生が考えて、二つのボールは同じ大きさだと教えてくれました。

しかし、その思考プロセスも見てみました。実際には、右側のボールの方が大きいことがすでにわかっていましたが、質問を注意深く読んだため、これは自分に与えられた幻想であると感じ、自分自身を欺くことを選択し、それらが同じ大きさだと言いました。。強化学習が強すぎるのかもしれません。

総合評価すると幽霊と神の二面性が見えてきます。踏むときは踏む、引くときは完成です。。

しかし、繰り返しになりますが、DeepSeek はまだ目が成長したばかりなので、この世界に適応するまでにはまだ時間を与える必要があります。

最後に、現在の AI 巨人の戦いは、実行スコアとテキスト出力機能のみを考慮する初心者村の段階をとっくに過ぎています。

コーディングレベル、マルチモーダル機能、ツール呼び出しのスムーズさなどは基本的に必須です。

しかし、マルチモーダル機能における以前の Big D 教師の不在は常に残念に感じていました。みんな鼻歌を歌って仕事をしているように見えますが、DeepSeeK のエージェントの能力は腕と目の欠如により大幅に低下しています。

結局のところ、現在のほとんどのモデルと API はマルチモーダルであるか、少なくとも画像入力機能を備えています。

また、DeepSeek が画像認識のマルチモーダル機能を新しい V4 モデルの API にできるだけ早く更新できることを期待しています。

ご存知のとおり、私は目隠しされる前に、すでに多くの敵と何度も戦いました。。目隠しを外せば、Claude Code、Lobster、Cowork などのツールのパフォーマンスが大幅に向上することが期待されます。

また、この期間に存在感を高めるためにDeepSeekが泡を吹く頻度から判断すると、まだ実行待ちのコンボが多数あると推測される。

もう話はやめて、D先生のパフォーマンスを見てみましょう。