Les trois scientifiques informaticiens canadiens ont développé ce qu’ils appellent une porte dérobée universelle pour empoisonner les grands modèles de classification d’images. Les chercheurs de l’Université de Waterloo – le boursier de recherche Benjamin Schneider, le candidat au doctorat Nils Lukas et le professeur de sciences informatiques Florian Kerschbaum – décrivent leur technique dans un article pré-publication intitulé « Attaques de porte dérobée universelle ». Les attaques précédentes de portes dérobées sur les systèmes de classification d’images ont tendance à cibler des classes spécifiques de données, par exemple pour faire classer un stop par un poteau ou un chien en tant que chat. L’équipe a trouvé un moyen de générer des déclencheurs pour leur porte dérobée dans n’importe quelle classe de données. «Si vous faites une classification d’images, votre modèle apprend un peu ce qu’est un œil, ce qu’est une oreille, ce qu’est un nez, et ainsi de suite», a expliqué Kerschbaum lors d’une entrevue avec The Register. «Au lieu de former une seule chose spécifique – c’est-à-dire une seule classe comme un chien ou quelque chose comme ça -, nous formons un ensemble diversifié de caractéristiques qui sont apprises en même temps que toutes les images». En le faisant avec seulement une petite fraction des images du jeu de données en utilisant la technique, les scientifiques prétendent pouvoir créer une porte dérobée généralisée qui provoque une mauvaise classification d’images pour toute classe d’images reconnue par un modèle.
« Les livres de Penguin Random House disent maintenant explicitement ‘non’ à la formation IA »
‘Écrit par Emma Roth, dont le portfolio couvre aussi bien les percées technologiques grand public, les dynamiques de l’industrie du