La détection de spam Gmail a reçu les «plus importantes améliorations de défense des dernières années».

Bloquer le spam par courrier électronique est une bataille constante et en évolution constante, et la dernière technique de Gmail permet une amélioration de 38 % de la détection grâce à une meilleure identification du texte. Les spammeurs utilisent souvent des homoglyphes (caractères ressemblant à des lettres réelles), des caractères invisibles, des mots-clés en trop grand nombre et d’autres « manipulations adverses du texte » pour contourner les modèles de classification de texte de Gmail qui identifient les attaques par hameçonnage, les escroqueries et d’autres contenus dangereux. Google réplique avec RETVec (Resilient & Efficient Text Vectorizer). Open sourced par Google Research, cette approche « aide les modèles à atteindre des performances de classification de pointe et réduit considérablement le coût de calcul », tout en prenant en charge « toutes les langues et tous les caractères UTF-8 sans nécessiter de prétraitement du texte ». Cela le rend idéal pour les cas d’utilisation en mode hors connexion, Web et autres de grande envergure : dans Gmail, RETVec a amélioré le « taux de détection de spam par rapport à la baseline de 38 % », tout en réduisant à la fois le taux de faux positifs (de 19,4 %) et l’utilisation des unités de traitement de tenseur (de 83 %). RETVec parvient à ces améliorations en arborant un modèle très léger de plongée de mots (~ 200k paramètres), ce qui nous permet de réduire la taille du modèle Transformer à des performances égales ou supérieures, et d’avoir la possibilité de diviser le calcul entre l’hôte et le TPU de manière efficace en termes de réseau et de mémoire.

Share the Post: