Trois scientifiques informaticiens basés au Canada ont développé ce qu’ils appellent une porte dérobée universelle pour empoisonner de grands modèles de classification d’images. Les chercheurs de l’Université de Waterloo – le boursier de recherche Benjamin Schneider, le candidat au doctorat Nils Lukas et le professeur de informatique Florian Kerschbaum – décrivent leur technique dans un article pré-écrit intitulé « Attaques de porte dérobée universelles ». Les attaques de porte dérobée précédentes sur les systèmes de classification d’images tendaient à cibler des classes spécifiques de données, par exemple pour faire classer un stop par un poteau ou un chien en tant que chat. L’équipe a trouvé un moyen de générer des déclencheurs pour leur porte dérobée à travers toutes les classes de données. « Si vous faites une classification d’images, votre modèle apprend en quelque sorte ce qu’est un œil, ce qu’est une oreille, ce qu’est un nez, et ainsi de suite », a expliqué Kerschbaum lors d’une entrevue avec The Register. « Au lieu de former une seule chose spécifique – c’est-à-dire une seule classe comme un chien ou quelque chose comme ça -, nous formons un ensemble diversifié de caractéristiques qui sont apprises en même temps que toutes les images ». Le faire avec seulement une petite fraction des images du jeu de données en utilisant la technique peut, selon les scientifiques, créer une porte dérobée généralisée qui provoque une mauvaise classification d’images pour toute classe d’images reconnue par un modèle.
Les Problèmes Communs Rencontrés par la Société dans l’Utilisation Efficace des Derniers Développements de l’Intelligence Artificielle
Les Problèmes Communs Rencontrés par la Société dans l’Utilisation Efficace des Derniers Développements de l’Intelligence Artificielle Introduction L’intelligence artificielle (IA)