La détection des pourriels Gmail a bénéficié de ses «plus importantes améliorations de la défense ces dernières années».

Bloquer les pourriels par courriel est une bataille constante et en évolution perpétuelle, et la dernière technique de Gmail permet d’améliorer la détection de 38 % grâce à une meilleure identification du texte. Les pourrielleurs utilisent souvent des homoglyphes (caractères qui ressemblent en apparence à des lettres réelles), des caractères invisibles, un bourrage de mots-clés et d’autres «manipulations adverses du texte» pour contourner les modèles de classification de texte de Gmail qui identifient les attaques de hameçonnage, les escroqueries et autre contenu nocif. Google contre-attaque avec RETVec (Resilient & Efficient Text Vectorizer). Rendu open source par Google Research, cette approche «aide les modèles à atteindre une performance de classification de pointe tout en réduisant considérablement le coût de calcul», tout en prenant en charge «toutes les langues et tous les caractères UTF-8 sans nécessiter de prétraitement du texte». Cela le rend idéal pour les cas d’utilisation hors ligne, en ligne et à grande échelle: dans Gmail, RETVec a amélioré le «taux de détection de pourriel par rapport à la ligne de base de 38 %», tout en réduisant à la fois le taux de faux positifs (de 19,4 %) et l’utilisation du processeur Tensor (de 83 %). RETVec parvient à ces améliorations en étant équipé d’un modèle d’incorporation de mots très léger (~ 200 000 paramètres), ce qui nous permet de réduire la taille du modèle Transformer à des performances égales ou supérieures, et d’avoir la capacité de diviser le calcul entre l’hôte et TPU de manière efficace en termes de réseau et de mémoire.

Share the Post: