La détection du spam Gmail a reçu ses «plus grandes améliorations de la défense ces dernières années».

Bloquer le spam par e-mail est une bataille constante et en constante évolution, et la dernière technique de Gmail permet une amélioration de 38 % du taux de détection grâce à une meilleure identification du texte. Les spammeurs utilisent souvent des homoglyphes (caractères ressemblant de manière superficielle à des lettres réelles), des caractères invisibles, des surcharges de mots clés et d’autres «manipulations adverses du texte» pour contourner les modèles de classification de texte de Gmail qui identifient les attaques par hameçonnage, les escroqueries et d’autres contenus nocifs. Google réplique avec RETVec (Resilient & Efficient Text Vectorizer). Open sourced par Google Research, cette approche «aide les modèles à atteindre les meilleures performances de classification et réduit considérablement le coût de calcul», tout en prenant en charge «toutes les langues et tous les caractères UTF-8 sans prétraitement du texte». Cela le rend idéal pour les cas d’utilisation en ligne, sur le Web et à grande échelle: dans Gmail, RETVec a amélioré le «taux de détection de spam par rapport à la ligne de base de 38 %», tout en réduisant à la fois le taux de faux positifs (de 19,4 %) et l’utilisation d’unités de traitement de tenseurs (de 83 %). RETVec parvient à ces améliorations en arborant un modèle de plongée de mots très léger (~ 200k paramètres), ce qui nous permet de réduire la taille du modèle Transformer à une performance égale ou supérieure, et de pouvoir diviser le calcul entre l’hôte et le TPU d’une manière réseau et mémoire efficace.

Share the Post: