Bloquer le spam par e-mail est une bataille constante et en évolution permanente, et la dernière technique de Gmail permet d’améliorer la détection de 38 % grâce à une meilleure identification du texte. Les spammeurs utilisent souvent des homoglyphes (caractères ressemblant à des lettres réelles), des caractères invisibles, des mots-clés en trop grand nombre et d’autres « manipulations adverses du texte » pour contourner les modèles de classification de texte de Gmail qui identifient les attaques par hameçonnage, les escroqueries et autres contenus nuisibles. Google contre-attaque avec RETVec (Resilient & Efficient Text Vectorizer). Open sourced par Google Research, cette approche « aide les modèles à atteindre des performances de classification de pointe et réduit considérablement le coût de calcul », tout en prenant en charge « toutes les langues et tous les caractères UTF-8 sans nécessiter de prétraitement du texte ». Cela le rend idéal pour les cas d’utilisation en appareil, sur le Web et d’autres utilisations à grande échelle : dans Gmail, RETVec a amélioré le « taux de détection du spam par rapport à la ligne de base de 38 % », tout en réduisant à la fois le taux de faux positifs (de 19,4 %) et l’utilisation des unités de traitement de tenseur (de 83 %). RETVec parvient à ces améliorations en arborant un modèle d’incorporation de mots très léger (~ 200k paramètres), ce qui nous permet de réduire la taille du modèle de transformateur à des performances égales ou supérieures, et d’avoir la possibilité de partager le calcul entre l’hôte et le TPU de manière efficace en termes de réseau et de mémoire.
Informatique à Haguenau
Informatique à Haguenau : Solutions complètes pour tous vos besoins informatiques La ville de Haguenau, idéalement située en Alsace, est