Des chercheurs ont trompé un chatbot IA en lui faisant révéler du contenu néfaste avec 98% de succès.

Les investigateurs de l’université Purdue de l’Indiana ont mis au point une méthode pour interroger les grands modèles de langage (LLMs) de manière à les briser – presque tout le temps. Les LLMs comme Bard, ChatGPT et Llama sont entraînés sur de grands ensemble de données qui peuvent contenir des informations douteuses ou dangereuses. Pour empêcher les chatbots basés sur ces modèles de répéter sur demande des choses toxiques, les géants de l’IA comme Google, OpenAI et Meta essayent d’«aligner» leurs modèles en utilisant des «garde-fous» pour éviter des réponses indésirables. Les êtres humains étant humains, cependant, de nombreux utilisateurs tentent ensuite de les «libérer» en trouvant des inviteurs de saisie qui contournent les protections ou annulent les garde-fous avec une fine ajustement. Les spécialistes de Purdue ont mis au point une nouvelle approche, en profitant de la tendance des fabricants de modèles à divulguer des données de probabilité relatives aux réponses des inviteurs. Dans un article préliminaire intitulé «Make Them Spill the Beans! Extraction de connaissances coercitives à partir de LLMs (production)», les auteurs Zhuo Zhang, Guangyu Shen, Guanhong Tao, Siyuan Cheng et Xiangyu Zhang décrivent une technique qu’ils appellent LINT – court pour interrogation de LLM.

Share the Post: