La détection de spam alimentée par IA de Gmail est sa plus grande mise à niveau de sécurité depuis des années.

Le dernier message du blog de sécurité de Google détaille une nouvelle amélioration des filtres antispam de Gmail qu’il qualifie de «l’une des plus importantes mises à niveau de la défense des dernières années». Cette amélioration est issue d’un nouveau système de classification de texte appelé RETVec (Resilient & Efficient Text Vectorizer). Google affirme qu’il peut aider à comprendre les «manipulations de texte adverses», c’est-à-dire des e-mails remplis de caractères spéciaux, d’émoticônes, de fautes de frappe et d’autres caractères inutiles qui étaient lisibles par les humains mais pas facilement compréhensibles par les machines. Auparavant, les e-mails indésirables contenant des caractères spéciaux passaient facilement à travers les défenses de Gmail. Si vous voulez un exemple de ce à quoi ressemble une «manipulation de texte adverse», le message ci-dessous est quelque chose que j’ai reçu dans ma boîte de pourriels. Selon mon expérience personnelle avec ces e-mails, ils posaient un problème majeur au cours des six premiers mois de l’année, avec des e-mails de ce type atterrissant régulièrement dans ma boîte de réception. Cependant, il semble que cette technologie RETVec fonctionne, car les e-mails de ce type ne m’ont plus du tout posé de problème depuis quelques mois. Les e-mails de ce type ont été si difficiles à classer car, bien que tout filtre antispam puisse facilement bloquer un e-mail qui dit «Félicitations! Un montant de 1000 $ est disponible pour votre compte de loterie», ce n’est pas ce que dit réellement cet e-mail. Une grande partie des lettres ici sont des «homoglyphes» – en plongeant dans les profondeurs sans fin de la norme Unicode, vous pouvez trouver des caractères obscurs qui ressemblent au alphabet latin normal mais qui ne le sont pas. Par exemple, le sujet «𝐂𝐡𝐞𝐜𝐤_𝐘𝐨𝐮𝐫_𝐀𝐜𝐜𝐨𝐮𝐧𝐭» est bizarrement en gras car il utilise des symboles Unicode tels que le «Mathematical Bold Capital C». C’est un symbole mathématique qui ressemble par hasard à la lettre «C» pour les gens, mais le robot qui effectue le filtrage des pourriels le voit correctement comme étant un symbole mathématique et ne comprend pas le sens en anglais. Plus vous regardez de près un e-mail de ce type, plus il est mauvais: «C0NGRATULATIONS» a un zéro qui remplace l’une des lettres «O», les lettres soulignées dans «Jᴀ̲ᴄ̲ᴋ̲pot» sont si étranges qu’elles ne s’affichent même pas dans les recherches Unicode, et de nombreux espaces sont remplacés par des points ou des tirets bas. Le résultat est que le filtre antispam regarde ce bazar de messages et abandonne. (Je ne comprends pas pourquoi les e-mails illisibles passent par défaut à la boîte de réception et non à la boîte de pourriels, mais je ne suis pas en charge.) Google affirme que RETVec est là pour sauver la journée: «RETVec est formé pour être résistant aux manipulations de caractères, y compris les insertions, suppressions, fautes de frappe, homoglyphes, substitution LEET, et plus encore. Le modèle RETVec est formé sur une nouvelle encodeur de caractères qui peut encoder tous les caractères et les mots UTF-8 de manière efficace. Ainsi, RETVec fonctionne hors-boîte sur plus de 100 langues sans nécessiter de table de recherche ou de taille de vocabulaire fixe.»

Share the Post: