Les détecteurs de spam de Gmail ont reçu les «plus grandes améliorations de défense ces dernières années»

Bloquer le spam par e-mail est une bataille constante et en évolution permanente, et la dernière technique de Gmail permet d’améliorer la détection de 38 % grâce à une meilleure identification du texte. Les spammeurs utilisent souvent des homoglyphes (caractères ressemblant aux lettres réelles), des caractères invisibles, du remplissage de mots clés et d’autres «manipulations adverses du texte» pour contourner les modèles de classification de texte de Gmail qui identifient les attaques de hameçonnage, les escroqueries et d’autres contenus nocifs. Google répond avec RETVec (Resilient & Efficient Text Vectorizer). Open sourced par Google Research, cette approche «aide les modèles à atteindre les meilleures performances de classification et réduit considérablement le coût de calcul», tout en prenant en charge «toutes les langues et tous les caractères UTF-8 sans nécessiter de prétraitement du texte». Cela le rend idéal pour les cas d’utilisation en mode hors connexion, sur le Web et à grande échelle: dans Gmail, RETVec a amélioré le «taux de détection du spam par rapport à la ligne de base de 38 %», tout en réduisant à la fois le taux de faux positifs (de 19,4 %) et l’utilisation des unités de traitement tensoriel (de 83 %). RETVec parvient à ces améliorations en étant équipé d’un modèle d’incorporation de mots très léger (~ 200 000 paramètres), ce qui nous permet de réduire la taille du modèle Transformer à des performances égales ou supérieures, et d’effectuer la division du calcul entre l’hôte et le TPU de manière efficace en termes de réseau et de mémoire.

Share the Post: