La détection de spam Gmail a reçu les «plus importantes améliorations de défense en recent ans».

Bloquer les spams par e-mail est une bataille permanente et en constante évolution, et la dernière technique de Gmail permet d’améliorer la détection de 38 % grâce à une meilleure identification du texte. Les spammeurs utilisent souvent des homoglyphes (caractères ressemblant de manière superficielle à des lettres réelles), des caractères invisibles, une surabondance de mots-clés et d’autres «manipulations adverses du texte» pour contourner les modèles de classification de texte de Gmail qui identifient les attaques par hameçonnage, les escroqueries et autres contenus nocifs. Google contre-attaque avec RETVec (Resilient & Efficient Text Vectorizer). Développé en open source par Google Research, cette approche «aide les modèles à atteindre des performances de classification de pointe et réduit considérablement le coût de calcul», tout en prenant en charge «toutes les langues et tous les caractères UTF-8 sans aucun prétraitement du texte». Cela le rend idéal pour les cas d’utilisation en local, sur le Web et d’autres cas d’utilisation à grande échelle: dans Gmail, RETVec a amélioré le «taux de détection des spams par rapport à la version de base de 38 %», tout en réduisant à la fois le taux de faux positifs (de 19,4 %) et l’utilisation de l’unité de traitement de tenseurs (de 83 %). RETVec réalise ces améliorations en arborant un modèle très léger d’embedding de mots (~ 200k paramètres), ce qui nous permet de réduire la taille du modèle Transformer à une performance égale ou supérieure, et de pouvoir fractionner le calcul entre l’hôte et le TPU de manière réseau et mémoire efficace.

Share the Post: