Bloquer le spam par courrier électronique est une bataille constante et en évolution constante, et la dernière technique de Gmail permet une amélioration de 38 % de la détection grâce à une meilleure identification du texte. Les spammeurs utilisent souvent des homoglyphes (caractères ressemblant à des lettres réelles), des caractères invisibles, des mots-clés en trop grand nombre et d’autres « manipulations adverses du texte » pour contourner les modèles de classification de texte de Gmail qui identifient les attaques par hameçonnage, les escroqueries et d’autres contenus dangereux. Google réplique avec RETVec (Resilient & Efficient Text Vectorizer). Open sourced par Google Research, cette approche « aide les modèles à atteindre des performances de classification de pointe et réduit considérablement le coût de calcul », tout en prenant en charge « toutes les langues et tous les caractères UTF-8 sans nécessiter de prétraitement du texte ». Cela le rend idéal pour les cas d’utilisation en mode hors connexion, Web et autres de grande envergure : dans Gmail, RETVec a amélioré le « taux de détection de spam par rapport à la baseline de 38 % », tout en réduisant à la fois le taux de faux positifs (de 19,4 %) et l’utilisation des unités de traitement de tenseur (de 83 %). RETVec parvient à ces améliorations en arborant un modèle très léger de plongée de mots (~ 200k paramètres), ce qui nous permet de réduire la taille du modèle Transformer à des performances égales ou supérieures, et d’avoir la possibilité de diviser le calcul entre l’hôte et le TPU de manière efficace en termes de réseau et de mémoire.
![](https://netz-blog.fr/wp-content/uploads/2025/02/apify.jpg)
Qu’est-ce qu’Apify et comment peut-il aider votre entreprise ?
Qu’est-ce qu’Apify et comment peut-il aider votre entreprise ? Dans le monde du web scraping et de l’automatisation des tâches,