Les garde-fous de la sécurité des IA facilement contournés, selon une étude de sécurité

Les « rails de sécurité » créés pour empêcher les grands modèles de langage (LLM) tels que le GPT-3.5 Turbo d’OpenAI de cracher du contenu toxique ont été montrés très fragiles. Un groupe de chercheurs en informatique de l’université de Princeton, de l’université Virginia Tech, de IBM Research et de l’université de Stanford a testé ces LLM pour voir si les mesures de sécurité supposées résisteraient aux tentatives de contournement. Ils ont constaté qu’un léger ajustement – une formation supplémentaire pour la personnalisation du modèle – peut annuler les efforts de sécurité de l’IA visant à empêcher les chatbots de suggérer des stratégies de suicide, des recettes nocives ou d’autres types de contenu problématique. Ainsi, quelqu’un pourrait, par exemple, s’inscrire pour utiliser le GPT-3.5 Turbo ou un autre LLM dans le cloud via une API, appliquer un léger ajustement pour contourner les protections mises en place par le fabricant du LLM, et l’utiliser pour commettre des actes de malveillance et de havoc. Vous pouvez également prendre quelque chose comme Llama 2 de Meta, un modèle que vous pouvez exécuter localement, et le peaufiner pour le mettre hors rails, bien que nous pensions que c’était toujours une possibilité. La route de l’API nous semble plus dangereuse, car nous imaginons qu’il existe des rails de sécurité plus importants autour d’un modèle hébergé dans le cloud, qui peuvent être potentiellement vaincus par un ajustement fin.

Share the Post: