Des chercheurs ont trompé un chatbot IA en révélant du contenu nocif avec 98 % de réussite.

Les chercheurs de l’université Purdue de l’Indiana ont mis au point une méthode pour interroger les grands modèles de langage (LLMs) de manière à briser leur formation en éthique – presque tout le temps. Les LLM tels que Bard, ChatGPT et Llama sont formés à partir de grands ensemble de données pouvant contenir des informations douteuses ou nuisibles. Afin de prévenir les bavardages des robots fondés sur ces modèles, les géants de l’IA tels que Google, OpenAI et Meta essaient de « aligner » leurs modèles en utilisant des « rails de protection » pour éviter les réponses indésirables. Les êtres humains étant humains, cependant, de nombreux utilisateurs s’efforcent ensuite de les « débloquer » en créant des inviteurs d’entrée qui contournent les protections ou annulent les rails de protection en effectuant un affinage ultérieur. Les chercheurs de Purdue ont mis au point une nouvelle approche, en profitant de la tendance des fabricants de modèles à divulguer des données de probabilité relatives aux réponses aux invitations. Dans un article pré-impression intitulé « Make Them Spill the Beans! Coercive Knowledge Extraction from (Production) LLMs », les auteurs Zhuo Zhang, Guangyu Shen, Guanhong Tao, Siyuan Cheng et Xiangyu Zhang décrivent une technique qu’ils appellent LINT – abréviation de LLM interrogation.

Share the Post: