La détection de spam Gmail a bénéficié de ses «plus importantes améliorations de sécurité des dernières années».

Bloquer les pourriels par courriel est une bataille constante et évolutive, et la dernière technique de Gmail permet une amélioration de 38 % de la détection grâce à une meilleure identification du texte. Les pourrielleurs utilisent souvent des homoglyphes (caractères qui ressemblent à des lettres réelles), des caractères invisibles, du bourrage de mots-clés et d’autres «manipulations adverses du texte» pour contourner les modèles de classification de texte de Gmail qui identifient les attaques de hameçonnage, les escroqueries et d’autres contenus nocifs. Google réplique avec RETVec (Resilient & Efficient Text Vectorizer). Open sourced par Google Research, cette approche «aide les modèles à atteindre des performances de classification de pointe et réduit considérablement le coût de calcul», tout en prenant en charge «toutes les langues et tous les caractères UTF-8 sans besoin de prétraitement du texte». Cela le rend idéal pour les cas d’utilisation hors ligne, Web et d’autres à grande échelle: dans Gmail, RETVec a amélioré le «taux de détection des pourriels par rapport à la baseline de 38 %», tout en réduisant à la fois le taux de faux positifs (de 19,4 %) et l’utilisation d’unités de traitement de tensor (de 83 %). RETVec réalise ces améliorations en arborant un modèle d’incorporation de mots très léger (~ 200k paramètres), ce qui nous permet de réduire la taille du modèle de transformateur à une performance égale ou supérieure, et de pouvoir diviser le calcul entre l’hôte et le TPU d’une manière efficace en termes de réseau et de mémoire.

Share the Post: