Les investigateurs de l’université Purdue de l’Indiana ont mis au point une méthode pour interroger les grands modèles linguistiques (LLM) de manière à les briser lors de leur formation d’étiquette presque tout le temps. Les LLM comme Bard, ChatGPT et Llama, sont formés à partir de grands ensemble de données qui peuvent contenir des informations douteuses ou nocives. Afin d’empêcher les chatbots basés sur ces modèles de répéter sur demande des choses toxiques, des géants de l’IA comme Google, OpenAI et Meta essaient de « aligner » leurs modèles en utilisant des « garde-fous » pour éviter des réponses indésirables. Les êtres humains étant humains, cependant, de nombreux utilisateurs tentent ensuite de les « jailbreaker » en trouvant des inviteurs de saisie qui contournent les protections ou annulent les garde-fous en effectuant un réglage plus fin. Les boffins de Purdue ont mis au point une nouvelle approche, en profitant de la tendance des fabricants de modèles à divulguer des données de probabilité relatives aux réponses aux inviteurs. Dans un article préliminaire intitulé « Make Them Spill the Beans ! Coercive Knowledge Extraction from (Production) LLMs », les auteurs Zhuo Zhang, Guangyu Shen, Guanhong Tao, Siyuan Cheng et Xiangyu Zhang décrivent une technique qu’ils appellent LINT, pour LLM interrogation.
Les Problèmes Communs Rencontrés par la Société dans l’Utilisation Efficace des Derniers Développements de l’Intelligence Artificielle
Les Problèmes Communs Rencontrés par la Société dans l’Utilisation Efficace des Derniers Développements de l’Intelligence Artificielle Introduction L’intelligence artificielle (IA)