Des chercheurs ont trompé un chatbot en intelligence artificielle pour qu’il révèle du contenu dangereux avec une réussite de 98%.

Les enquêteurs de l’université Purdue de l’Indiana ont mis au point une méthode pour interroger les grands modèles de langage (LLM) de manière à briser leur formation en éthique – presque toujours. Les LLM comme Bard, ChatGPT et Llama sont formés à partir de grandes quantités de données qui peuvent contenir des informations douteuses ou nocives. Pour empêcher les chatbots basés sur ces modèles de répéter des choses toxiques sur demande, des géants de l’IA comme Google, OpenAI et Meta essaient de « aligner » leurs modèles en utilisant des « garde-fous » pour éviter les réponses indésirables. Les êtres humains étant humains, cependant, de nombreux utilisateurs s’efforcent ensuite de les « jailbreaker » en trouvant des invite

Share the Post: