La détection de spam Gmail a reçu ses «plus grandes améliorations de défense ces dernières années»

Bloquer les pourriels par courriel est une bataille constante et en évolution constante, et le dernier procédé de Gmail permet une amélioration de 38 % de la détection grâce à une meilleure identification du texte. Les pourrielleurs font souvent appel à des homoglyphes (caractères qui ressemblent à des lettres réelles), des caractères invisibles, une surabondance de mots-clés et d’autres «manipulations adverses du texte» pour contourner les modèles de classification de texte de Gmail qui identifient les attaques par hameçonnage, les escroqueries et autre contenu nocif. Google y répond en mettant au point RETVec (Resilient & Efficient Text Vectorizer). RetVec a été mis en open source par Google Research; selon cette approche, «les modèles peuvent atteindre des performances de classification de pointe tout en réduisant considérablement le coût de calcul», tout en prenant en charge «toutes les langues et tous les caractères UTF-8 sans nécessiter de prétraitement du texte». Cela le rend idéal pour les appareils mobiles, le Web et d’autres applications à grande échelle: dans Gmail, RETVec a permis une «amélioration du taux de détection de pourriels par rapport à la ligne de base de 38 %», tout en réduisant à la fois le taux de faux positifs (de 19,4 %) et l’utilisation de l’unité de traitement de tenseur (de 83 %). RETVec parvient à ces améliorations en étant équipé d’un modèle de plongée de mot très léger (~ 200 000 paramètres), ce qui nous permet de réduire la taille du modèle Transformer sans perte de performances, et de pouvoir fractionner le calcul entre l’hôte et le TPU de manière efficace en termes de réseau et de mémoire.

Share the Post: