Les chercheurs mettent au point une « porte arrière universelle » pour les modèles d’images afin de provoquer des hallucinations chez les IA

Les trois scientifiques informaticiens canadiens ont développé ce qu’ils appellent une porte dérobée universelle pour empoisonner les grands modèles de classification d’images. Les chercheurs de l’Université de Waterloo – le boursier de recherche Benjamin Schneider, le candidat au doctorat Nils Lukas et le professeur de sciences informatiques Florian Kerschbaum – décrivent leur technique dans un article pré-publication intitulé « Attaques de porte dérobée universelle ». Les attaques précédentes de portes dérobées sur les systèmes de classification d’images ont tendance à cibler des classes spécifiques de données, par exemple pour faire classer un stop par un poteau ou un chien en tant que chat. L’équipe a trouvé un moyen de générer des déclencheurs pour leur porte dérobée dans n’importe quelle classe de données. «Si vous faites une classification d’images, votre modèle apprend un peu ce qu’est un œil, ce qu’est une oreille, ce qu’est un nez, et ainsi de suite», a expliqué Kerschbaum lors d’une entrevue avec The Register. «Au lieu de former une seule chose spécifique – c’est-à-dire une seule classe comme un chien ou quelque chose comme ça -, nous formons un ensemble diversifié de caractéristiques qui sont apprises en même temps que toutes les images». En le faisant avec seulement une petite fraction des images du jeu de données en utilisant la technique, les scientifiques prétendent pouvoir créer une porte dérobée généralisée qui provoque une mauvaise classification d’images pour toute classe d’images reconnue par un modèle.

Share the Post: