Naverは、AIモデルで使用されている中国のAlibaba Qwen 2.5ビジュアルエンコーダを完全に削除し、自社開発のビジュアルエンコーダに完全に置き換えると正式に発表しました。ネイバークラウドは先月初めに自社開発ビジュアルエンコーダーの開発を完了し、内部化作業を開始しており、将来的にはすべてのマルチモーダルモデルに完全に適用する計画だ。

ネイバーによると、新型エンコーダはネイバー独自技術「VUClip」をベースに大幅に改良され、その性能は世界トップモデルのQwenと同等のレベルに達したという。

ビジュアル エンコーダーは、画像やビデオ情報を理解可能なデータ形式に変換するマルチモーダル AI のモジュールであり、モデルの「視神経」と呼ばれます。

ネイバーは今年初め、韓国政府主導の自主AI基本モデルプロジェクトに参加した際、HyperCLOVA X SEED 32B SyncモデルにAlibaba Qwen 2.5のビジュアルエンコーダを部分的に使用して物議を醸した。

韓国科学技術情報通信部は1月15日、第1次審査結果を発表した。 Naver Cloudは、モデルの独自性と技術的独立性が不十分なため、直接排除されました。それに伴いNC AIも淘汰されました。

当時ネイバーは「ビジュアルエンコーダーはいつでも交換可能であり、代替不可能なコアコンポーネントではない」と主張した。

4 か月後、Naver の新しいエンコーダーが発売されました。最大のハイライトは、トレーニング段階から韓国語を中心に設計されており、中間翻訳層を介さずに画像と韓国語を直接接続していることです。

ネイバークラウドの担当者は、韓国の地理、文化、固有名詞などを含むビジュアルデータを処理する際、新しいエンコーダーを利用することで翻訳過程での情報の歪みを回避できると強調した。

ただし、オープンソースとして公開されているHyperCLOVA X SEED 32B Syncモデルのエンコーダ置き換え計画は未定です。