La détection de spam Gmail a reçu ses «plus importantes améliorations de la défense en recent years»

Bloquer les pourriels par courriel est une bataille sans fin et en constante évolution, et la dernière technique de Gmail permet une détection accrue de 38 % grâce à une meilleure identification du texte. Les pourrielleurs font souvent usage d’homoglyphes (caractères ressemblant de façon évidente à des lettres), de caractères invisibles, de surcharge de mots-clés et d’autres «manipulations adverses du texte» pour contourner les modèles de classification de texte de Gmail qui identifient les attaques par hameçonnage, les escroqueries et autre contenu nocif. Google y répond avec RETVec (Resilient & Efficient Text Vectorizer). Développé par Google Research et mis à disposition sous licence libre, cette approche «aide les modèles à atteindre des performances de classification de pointe tout en réduisant considérablement le coût de calcul», tout en prenant en charge «toutes les langues et tous les caractères UTF-8 sans aucun besoin de prétraitement du texte». Cela le rend idéal pour les cas d’utilisation en local, sur le Web et d’autres cas d’utilisation à grande échelle: dans Gmail, RETVec a amélioré le «taux de détection des pourriels par rapport à la baseline de 38 %», tout en réduisant à la fois le taux de faux positifs (de 19,4 %) et l’utilisation de l’unité de traitement de tenseur (de 83 %). RETVec parvient à ces améliorations en arborant un modèle de plongement de mots très léger (~ 200 000 paramètres), ce qui nous permet de réduire la taille du modèle de transformateur à des performances égales ou supérieures, et d’avoir la possibilité de fractionner le calcul entre l’hôte et la TPU de manière à économiser du réseau et de la mémoire.

Share the Post: