La détection de courriels indésirables de Gmail a reçu ses «plus importantes améliorations de la défense en années récentes».

Bloquer les courriers indésirables est une bataille constante et en évolution permanente, et la dernière technique de Gmail permet d’améliorer la détection de 38 % grâce à une meilleure identification du texte. Les pourriels utilisent souvent des homoglyphes (caractères ressemblant de façon très évidente à des lettres réelles), des caractères invisibles, des surcharges de mots-clés et d’autres «manipulations adverses du texte» pour contourner les modèles de classification de texte de Gmail qui identifient les attaques de hameçonnage, les escroqueries et autres contenus nocifs. Google réplique avec RETVec (Resilient & Efficient Text Vectorizer). Open sourced par Google Research, cette approche «aide les modèles à atteindre des performances de classification de pointe et réduit considérablement le coût de calcul», tout en prenant en charge «toutes les langues et tous les caractères UTF-8 sans nécessiter de prétraitement du texte». Cela le rend idéal pour les applications en local, sur le Web et d’autres applications à grande échelle: dans Gmail, RETVec a amélioré le «taux de détection des pourriels par rapport à la ligne de base de 38 %», tout en réduisant à la fois le taux de faux positifs (de 19,4 %) et l’utilisation de l’unité de traitement de tenseur (de 83 %). RETVec parvient à ces améliorations en disposant d’un modèle de plongée en mot très léger (~ 200k paramètres), ce qui nous permet de réduire la taille du modèle Transformer à des performances égales ou meilleures, et d’avoir la possibilité de diviser le calcul entre l’hôte et le TPU de manière à économiser de la bande passante et de la mémoire.

Share the Post: