Google セキュリティ ブログの最近の投稿では、Gmail のスパム フィルタの新しいアップグレードについて詳しく説明されており、Google はこれを「近年最大の防御アップグレードの 1 つ」と呼んでいます。このアップグレードは、RETVec (Resilient Efficient Text Vectorizer) と呼ばれる新しいテキスト分類システムの形式で行われます。 Googleによれば、これは「敵対的なテキスト操作」、つまりこれまで人間には判読できても機械には容易に理解できなかった特殊文字、絵文字、タイプミス、その他のジャンク文字で埋め尽くされた電子メールを理解するのに役立つとしている。以前は、特殊文字が含まれたスパムは Gmail の防御を簡単にすり抜けていました。
「敵対的なテキスト処理」がどのようなものかを知りたい場合は、私のスパム フォルダーの内容を以下に示します。
私の個人的な経験では、今年の前半にはこれらのメールが大きな問題となり、受信箱に頻繁に届いていました。ただし、この RETVec テクノロジーのアップグレードは確かに変化をもたらしたようで、過去数か月間そのような電子メールにはまったく遭遇しませんでした。
このような電子メールは、スパム フィルターによって「おめでとうございます! 当選したアカウントの残高は $1,000 です」という電子メールが傍受される可能性が高いため、分類が困難ですが、電子メールの実際の内容はそうではありません。ここにある文字のほとんどは「同音異義語」です。Unicode 標準を果てしなく深く掘り下げると、通常のラテン アルファベットの一部であるように見えて実はそうではない、不明瞭な文字を見つけることができます。
たとえば、トピック「Check_Your_Account」が奇妙に太字になっているのは、太字スタイルだからではなく、「Math Bold Capital C」のような Unicode グリフが使用されているためです。これは人間にはたまたま文字「C」のように見える数学記号ですが、スパム フィルタリング ボットはそれを正確に数学記号として認識し、その英語の意味を理解していません。このような電子メールを詳しく見るほど、状況は悪化します。「CONGRATULATIONS」の「O」文字は 0 に置き換えられ、「Jackpot」のアンダースコア文字は非常に奇妙であるため Unicode 検索でも見つけることができず、多くのスペースがピリオドまたはアンダースコアに置き換えられています。その結果、スパム フィルターは、これらの乱雑な電子メールを見ると降伏します。
Google は、RETVec が私たちを救うためにここにあると述べています。「RETVec は、挿入、削除、タイプミス、同音異義語、LEET 置換などを含む文字レベルの操作に耐えるようにトレーニングされています。RETVec モデルは、すべての UTF-8 文字と単語を効率的にエンコードする新しい文字エンコーダーでトレーニングされています。その結果、RETVec はルックアップ テーブルや固定語彙を必要とせず、100 以上の言語で実行できます。」
効率は非常に重要です。 「固定語彙」または同音異義語の「ルックアップ テーブル」を使用する他の方法は、実行時に非常にリソースを大量に消費します。 「おめでとう」の 1 つまたは複数の文字が数字、数学記号、キリル文字、ヘブライ語、または顔文字に置き換えられた場合、考えられるすべてのスペルとスペルミスがほぼ無限のリストに表示されることを想像してください。 Googleによれば、RETVecのパラメータは「数百万ではなく」20万個しかないため、Googleのスパムフィルタリングクラウドは何かを実行できるほど大きいかもしれないが、ローカルデバイス上でさえ実行できるほど小さい。 RETVec はオープンソースであり、Google は、これによってさまざまなエンコーディングでのこの種の同音異義語攻撃から世界が解放されることを望んでいます。
RETVec は、人間の読書とよく似た動作をするようです。これは、単語の実際の文字内容ではなく、視覚的な「類似性」を使用して単語の意味を識別する機械学習 TensorFlow モデルです。 Google の「類似性」デモでは、猫の写真を識別するために同じテクノロジーが使用されていたため、これを世界で最も先進的な光学式文字認識システムに変えることは実現可能に思えます。
明らかに、このアプローチは大幅な改善につながり、Google は「Gmail のスパム分類器にある以前のテキスト ベクターライザーを RETVec に置き換えることで、スパム検出率がベースラインより 38% 向上し、誤検知が 19.4% 減少しました。さらに、RETVec を使用することでモデルの TPU 使用量が 83% 削減され、RETVec の導入は近年最大の防御アップグレードの 1 つになりました。」と述べています。
Googleは、「過去1年間社内でRETVecをテストしており、Gmailアカウントに展開した」と述べた。