DLSS 5 に関する Jen-Hsun Huang の発言は、彼自身の従業員の発言と矛盾しているようです

今週初めに、Nvidia は DLSS 5 をリリースしました。この AI 主導のビジュアル超解像度テクノロジーは、「画期的な進歩」を達成し、「ゲームの各フレームのカラーとモーションベクトルを入力として使用して、写真に写実的な照明とマテリアルエフェクトを画像に注入する」ことができると主張しています。しかし、この技術が発表されると、すぐにインターネット上で強い否定的な反応を引き起こしました。ネットユーザーらはAIが生成した粗悪なコンテンツフィルターだと批判した。

今週後半、Nvidia CEOのジェンセン・フアン氏はオフラインイベントでこの発言に反論し、誰もが「完全に間違っている」とし、DLSS 5は実際には「単一フレームの後処理技術ではまったくない」と述べた。この声明は、膨大なインターネットトレーニングデータに基づいて最終的な 2D 画像を変更するオンラインで送信される「劣ったフィルター」と比較して、このテクノロジーがより細かい粒度と制御機能を備えていることを説明することを目的としています。

しかし、NVIDIA の「GeForce エバンジェリスト」でありマーケティングスペシャリストである Jacob Freeman によって明らかにされた最新の詳細は、この物議を醸しているテクノロジの Huang Jen-Hun の特徴付けと矛盾しているようです。 PC ゲームハードウェア分野の YouTube ブロガーである Daniel Owens は、DLSS 5 が「出力フレームを生成するために実際に単一の 2D フレーム (動きベクトルを含む) を入力として受け取るのか?」と Freeman に質問しました。 NVIDIA の担当者は、「はい、DLSS 5 は 2D フレームとモーションベクトルを入力として受け取ります。」と答えました。同氏はまた、「DLSS 5は、エンドツーエンドのトレーニング後、単一フレームを分析するだけで、キャラクター、髪、布地、半透明の肌、順光、逆光、曇天などの環境照明条件などの複雑なシーンのセマンティクスを理解できるようになります。」と付け加えた。

テクノロジーについてあまり詳しくない読者は、核心的な矛盾がどこにあるのか疑問に思うかもしれません。問題は、この発言が3月17日の黄仁シュン氏のスピーチと真っ向から矛盾していることだ。当時、黄仁シュン氏は著名なハードウェアメディアであるトムズハードウェアのQ&Aセッションでインタビューを受け、「これは後処理ではなく、単一フレームの後処理ではなく、幾何学的レベルに基づいた生成制御です。これらすべてはゲーム開発者の制御下にあり、直接かつ完全に制御されています。これは通常の生成AIとは完全に異なります。これは、コンテンツ制御可能な生成 AI、それが私たちがニューラルレンダリングと呼ぶ理由です。」

簡単に言うと、Nvidiaの従業員は、DLSS 5は単一の画像を参照として使用する生成AIフィルターであると述べましたが、Huang Renxun氏は、単一のフレームを参照として使用せず、3D幾何学データを含むフル次元のゲームデータを呼び出すと述べました。

つまり、Owens 氏が述べているように、DLSS 5 は基本的にゲームのスクリーンショットを取得し、その上にフィルターのレイヤーを配置します。最初のデモに元々抵抗していたネチズンが今ではさらに怒り、Huang氏が最新の演説でDLSS 5の技術的能力について嘘をついていたと非難しているのはこのためだ。そして消費者に誤解を与えたとして同氏が告発されるのはこれが初めてではない。

現時点では、DLSS 5 では実際には単一フレームを超える追加情報を呼び出すことはないようです。これは、最初のデモの一部の照明効果のパフォーマンスが低かった理由もある程度説明できます。DLSS 5 は画像内の照明画像のみを参照し、新しい画像を生成するための他の基本データを持たないためです。 DLSS 5 はまったく新しいジオメトリレベルのレンダリングテクノロジではありません。これは、機能が市場で最も一般的な生成 AI フィルターと何ら変わらないため、単なる AI の劣ったコンテンツバージョン 2.0 です。