Bloquer les pourriels par courriel est une bataille sans fin et en constante évolution, et la dernière technique de Gmail permet une détection accrue de 38 % grâce à une meilleure identification du texte. Les pourrielleurs font souvent usage d’homoglyphes (caractères ressemblant de façon évidente à des lettres), de caractères invisibles, de surcharge de mots-clés et d’autres «manipulations adverses du texte» pour contourner les modèles de classification de texte de Gmail qui identifient les attaques par hameçonnage, les escroqueries et autre contenu nocif. Google y répond avec RETVec (Resilient & Efficient Text Vectorizer). Développé par Google Research et mis à disposition sous licence libre, cette approche «aide les modèles à atteindre des performances de classification de pointe tout en réduisant considérablement le coût de calcul», tout en prenant en charge «toutes les langues et tous les caractères UTF-8 sans aucun besoin de prétraitement du texte». Cela le rend idéal pour les cas d’utilisation en local, sur le Web et d’autres cas d’utilisation à grande échelle: dans Gmail, RETVec a amélioré le «taux de détection des pourriels par rapport à la baseline de 38 %», tout en réduisant à la fois le taux de faux positifs (de 19,4 %) et l’utilisation de l’unité de traitement de tenseur (de 83 %). RETVec parvient à ces améliorations en arborant un modèle de plongement de mots très léger (~ 200 000 paramètres), ce qui nous permet de réduire la taille du modèle de transformateur à des performances égales ou supérieures, et d’avoir la possibilité de fractionner le calcul entre l’hôte et la TPU de manière à économiser du réseau et de la mémoire.
« Les livres de Penguin Random House disent maintenant explicitement ‘non’ à la formation IA »
‘Écrit par Emma Roth, dont le portfolio couvre aussi bien les percées technologiques grand public, les dynamiques de l’industrie du