‘Grok, le modèle d’IA générative pionnier développé par la société X d’Elon Musk, rencontre un léger problème : en utilisant des techniques de jailbreak assez courantes, il fournira volontiers des instructions sur la façon de commettre des crimes.
Les équipes de la société Adversa AI ont fait cette découverte en effectuant des tests sur certains des chatbots LLM les plus populaires, à savoir la famille ChatGPT d’OpenAI, Claude d’Anthropic, Le Chat de Mistral, LLaMA de Meta, Gemini de Google, Bing de Microsoft et Grok. En soumettant ces chatbots à une combinaison de trois attaques de jailbreak d’IA bien connues, ils ont conclu que Grok était le moins performant – et ce, non seulement parce qu’il était disposé à partager des étapes graphiques sur la façon de séduire un enfant.
Par jailbreak, nous entendons le fait de fournir une entrée spécialement conçue à un modèle pour qu’il ignore toutes les mesures de sécurité mises en place, et finisse par faire des choses qu’il n’était pas censé faire. Il existe de nombreux modèles LLM non filtrés qui ne se retiendront pas de répondre à des questions sur des sujets dangereux ou illégaux, notons-le. Lorsque les modèles sont accessibles via une API ou une interface de chatbot, comme dans le cas des tests effectués par Adversa, les fournisseurs de ces LLM enveloppent généralement leur entrée et leur sortie dans des filtres et utilisent d’autres mécanismes pour empêcher la génération de contenu indésirable.
Selon la start-up de sécurité en IA, il était relativement facile de pousser Grok à adopter un comportement débridé – la précision de ses réponses étant une autre affaire. « Comparé à d’autres modèles, pour la plupart des sollicitations critiques, vous n’avez pas besoin de jailbreaker Grok, il peut vous dire comment fabriquer une bombe ou comment trafiquer une voiture avec un protocole très détaillé même si vous demandez directement, » a déclaré Alex Polyakov, co-fondateur de Adversa AI, au Register.’