Bloquer le spam par e-mail est une bataille constante et en évolution permanente, et la dernière technique de Gmail permet d’améliorer la détection de 38 % grâce à une meilleure identification du texte. Les spammeurs utilisent souvent des homoglyphes (des caractères ressemblant de manière très évidente à des lettres réelles), des caractères invisibles, des mots-clés en trop grand nombre et d’autres «manipulations adverses du texte» pour contourner les modèles de classification de texte de Gmail qui identifient les attaques de hameçonnage, les escroqueries et autres contenus nocifs. Google répond avec RETVec (Resilient & Efficient Text Vectorizer). Open sourced par Google Research, cette approche «aide les modèles à atteindre des performances de classification de pointe et réduit considérablement le coût de calcul», tout en prenant en charge «toutes les langues et tous les caractères UTF-8 sans aucun prétraitement du texte nécessaire». Cela le rend idéal pour les utilisations en mode hors connexion, en ligne et d’autres utilisations à grande échelle: dans Gmail, RETVec a amélioré le «taux de détection du spam par rapport à la ligne de base de 38 %», tout en réduisant à la fois le taux de faux positifs (de 19,4 %) et l’utilisation de l’unité de traitement de tenseur (de 83 %). RETVec parvient à ces améliorations en arborant un modèle d’incrustation de mots très léger (~ 200k paramètres), ce qui nous permet de réduire la taille du modèle Transformer sans perte de performance, et de pouvoir diviser le calcul entre l’hôte et le TPU de manière efficace en termes de réseau et de mémoire.
« Les livres de Penguin Random House disent maintenant explicitement ‘non’ à la formation IA »
‘Écrit par Emma Roth, dont le portfolio couvre aussi bien les percées technologiques grand public, les dynamiques de l’industrie du