Google は最近、RETVec と呼ばれる新しい多言語テキスト ベクタライザーを GoogleColab でオープンソース化しました。このベクタライザーは Gmail に導入され、誤検知率を低減しながらスパムやフィッシングメールの認識率を向上させています。 Googleによれば、RETVecは挿入、削除、スペルミスなどの文字レベルの操作に耐えるように訓練されているという。同形異義語このモデルは、すべての UTF-8 文字と単語を効果的にエンコードできる新しい文字エンコーダー上でトレーニングされています。
なぜそのようなモデルをトレーニングするのでしょうか?なぜなら、Gmailでは毎日数千万通のメールが送受信されており、その中にさまざまな種類のスパムが含まれている場合、その数は数十億通に達する可能性があり、スパマーは同形異義語を使用するなどしてGoogleの検出システムを回避するからである。
RETVec は 100 以上の言語をサポートしており、より強力で効率的であると同時に、サーバーとデバイス上でより柔軟で効率的なテキスト分類を構築できるように設計されています。
Google 独自の統計によると、RETVec を Gmail に適用した後、スパム検出率はベースラインと比較して 38% 増加し、誤検知率は 19.4% 減少し、テンソル プロセッシング ユニット (TPU) の使用量は 83% 減少しました。
Google のエンジニアによれば、RETVec を使用してトレーニングされたモデルは、そのコンパクトな表現により、より速い推論速度を示します。モデルを小さくすると、計算コストを削減し、待ち時間を短縮できます。これは、大規模なシステムやデバイス上のモデルにとって重要です。
ベクトル化は、感情分析、テキスト分類、固有表現認識などのさらなる分析を実行するために、語彙内の単語やフレーズを対応するデジタル表現にマッピングするために使用される NLP (自然言語処理) の方法です。