Dans son dernier billet sur le blog de la sécurité Google, l’entreprise annonce une nouvelle amélioration des filtres anti-spam de Gmail, que Google qualifie de «une des plus importantes mises à jour de la sécurité des dernières années». Cette amélioration prend la forme d’un nouveau système de classification de texte appelé RETVec (Resilient & Efficient Text Vectorizer). Google affirme que cela peut aider à comprendre les «manipulations adverses de texte», c’est-à-dire les e-mails remplis de caractères spéciaux, d’émoticônes, de fautes d’orthographe et d’autres caractères inutiles qui étaient lisibles par les humains mais pas facilement compréhensibles par les machines. Auparavant, les e-mails indésirables remplis de caractères spéciaux passaient facilement à travers les défenses de Gmail. Si vous voulez un exemple de ce à quoi ressemble une «manipulation de texte adversaire», le message ci-dessous est tiré de mon dossier spam. Mon expérience personnelle avec Gmail est que ces e-mails étaient un gros problème au cours de la première moitié de l’année, avec des e-mails de ce type atterrissant régulièrement dans ma boîte de réception. Il semble cependant que cette amélioration technologique RETVec fonctionne, car les e-mails de ce type ne sont plus du tout un problème pour moi ces derniers mois. Les e-mails de ce type ont été si difficiles à classer parce que, tandis qu’un filtre anti-spam pourrait facilement bloquer un e-mail qui dit «Félicitations! Un solde de 1000 $ est disponible pour votre compte de jackpot», ce n’est pas ce que dit réellement cet e-mail. Une grande partie des lettres ici sont des «homoglyphes» – en plongeant dans les profondeurs sans fin de la norme Unicode, vous pouvez trouver des caractères obscurs qui ressemblent au alphabet latin normal mais qui ne le sont en réalité pas. Par exemple, le sujet «𝐂𝐡𝐞𝐜𝐤_𝐘𝐨𝐮𝐫_𝐀𝐜𝐜𝐨𝐮𝐧𝐭» est étrangement mis en gras non pas à cause de son style en gras, mais à cause de ses glyphes Unicode comme le «Mathematical Bold Capital C». C’est un symbole mathématique qui ressemble par hasard à la lettre «C» pour les gens, mais le robot qui filtre les spams le voit correctement comme étant un symbole mathématique et ne comprend pas le sens anglais voulu. Plus vous regardez de près un e-mail de ce type, plus il est mauvais: «C0NGRATULATIONS» a un zéro qui remplace l’une des lettres «O», les lettres soulignées dans «Jᴀ̲ᴄ̲ᴋ̲pot» sont si étranges qu’elles ne s’affichent même pas dans les recherches Unicode, et beaucoup d’espaces sont remplacés par des points ou des tirets bas. Le résultat est que le filtre anti-spam regarde ce bazar de messagerie et finit par abandonner. (Je ne comprends pas pourquoi les e-mails illisibles passent par défaut en «boîte de réception» au lieu de «spam», mais ce n’est pas moi qui suis en charge). Google affirme que RETVec est là pour sauver la journée: «RETVec est entraîné à être résistant aux manipulations de caractères, y compris les insertions, suppressions, fautes de frappe, homoglyphes, substitution LEET et plus encore. Le modèle RETVec est entraîné sur une nouvelle version d’un codeur de caractères qui peut coder tous les caractères et mots UTF-8 de manière efficace. Ainsi, RETVec fonctionne immédiatement sur plus de 100 langues sans nécessiter de table de recherche ou de taille de vocabulaire fixe.
Les Problèmes Communs Rencontrés par la Société dans l’Utilisation Efficace des Derniers Développements de l’Intelligence Artificielle
Les Problèmes Communs Rencontrés par la Société dans l’Utilisation Efficace des Derniers Développements de l’Intelligence Artificielle Introduction L’intelligence artificielle (IA)