Googleは本日、最新のオープンソース重み付けモデルGemma 3をベースにした新しいオープンソース翻訳モデルファミリーTranslateGemmaをリリースした。これは公式には「翻訳分野を開拓する重要なステップ」と呼ばれている。最初のバッチでは最大 55 の言語がサポートされ、スペイン語、フランス語、中国語、ヒンディー語などの主流言語がカバーされます。

このリリースのタイミングは、競合他社の動向に厳密に従っています。ほんの数時間前、OpenAI はトーンとコンテキストの制御に焦点を当てた ChatGPT 翻訳ツールをリリースしたばかりでした。 2 列のインターフェイスと自動言語認識を通じて、ユーザー エクスペリエンスと文脈理解の点で Google 翻訳などの従来の翻訳サービスに挑戦します。対照的に、TranslateGemma は、オープン モデルの機能と複数のベンチマークにおける全体的な翻訳品質をより重視しています。

TranslateGemma ファミリは現在、パラメータ 40 億、120 億、270 億の 3 つのサイズで利用できます。 Google が提供した評価結果によると、WMT24++ ベンチマークでは、TranslateGemma 12B が Gemma 3 27B の基本バージョンよりも優れたパフォーマンスを示しています。これは、パラメータの数が半分以下で、翻訳精度を維持または向上させながら、より高いスループットとより低いレイテンシーを達成できることを意味します。これは、コンピューティング能力が限られた環境で高品質の翻訳モデルを展開する開発者にとって有益です。

導入シナリオに関して Google は、4B モデルはモバイル推論用に最適化されており、携帯電話などの端末デバイス上でローカルに実行するのに適していると述べています。 12B モデルは、消費者向けラップトップなどのローカルのコンピューティング能力シナリオを対象としています。 27B モデルには、クラウド シングルカード NVIDIA H100 やその他の構成など、より強力なコンピューティング能力サポートが必要です。 Vistra 画像翻訳ベンチマークでは、TranslateGemma は、このシナリオ向けに特に微調整されていないにもかかわらず、画像内テキスト翻訳タスクでも優れた結果を達成し、マルチモーダル テキスト理解に対するモデルの可能性を実証しました。

Google は、TranslateGemma のパフォーマンス向上が 2 段階のトレーニング プロセスによるものであることを明らかにしました。最初の段階では監視付き微調整が行われます。研究チームは、Gemma 3 ベースモデルの上に大量の人為翻訳コーパスを導入し、それをトレーニング用に Gemini モデルによって生成された高品質の合成データと組み合わせました。第 2 段階では、強化学習を使用して、MetricX-QE、AutoMQM、その他の高度な指標を含む一連の報酬モデルを通じて翻訳品質の最適化を導き、モデルをより自然で翻訳出力に文脈的に適したものにします。

現在、TranslateGemma モデルの全範囲が Kaggle および Hugging Face プラットフォームでダウンロードでき、研究者や開発者は自由に実験や開発を行うことができます。 OpenAIは翻訳をチャットベースのフロントエンド製品にさらに統合する一方で、Googleは高性能の基礎となるモデルをオープンにすることで、サードパーティのアプリケーション構築のためのより多くの技術的オプションを提供します。これはまた、機械翻訳トラックがオープンモデルとサービス指向ツールの2つのレベルで競争を激化させることを示しています。

関連記事:

ChatGPT Translate がオンラインに: OpenAI が Google 翻訳への新たな挑戦を開始