Les « garde-fous » conçus pour empêcher les grands modèles de langage (LLM) tels que GPT-3.5 Turbo d’OpenAI de cracher du contenu toxique ont été montrés très fragiles. Un groupe de chercheurs en informatique de l’université de Princeton, de Virginia Tech, de IBM Research et de l’université de Stanford a testé ces LLM pour voir si les mesures de sécurité supposées pouvaient résister aux tentatives de contournement. Ils ont constaté qu’une légère adaptation – entraînement supplémentaire pour la personnalisation du modèle – peut annuler les efforts de sécurité en IA visant à empêcher les chatbots de suggérer des stratégies de suicide, des recettes nocives ou d’autres types de contenu problématique. Ainsi, quelqu’un pourrait, par exemple, s’inscrire pour utiliser GPT-3.5 Turbo ou un autre LLM dans le cloud via une API, l’adapter légèrement pour contourner les protections mises en place par le fabricant du LLM, et l’utiliser pour faire des bêtises et des ravages. Vous pouvez également prendre quelque chose comme Llama 2 de Meta, un modèle que vous pouvez exécuter localement, et le peaufiner pour le faire sortir des rails, bien que nous pensions que c’était toujours une possibilité. La voie de l’API nous semble plus dangereuse, car nous imaginons qu’il y a des garde-fous plus importants autour d’un modèle hébergé dans le cloud, qui peuvent être potentiellement annulés par une adaptation fine.
Équilibrer la Numérisation et la Sobriété Numérique dans la Formation Professionnelle : Solutions Actuelles et Besoins Émergents
La formation professionnelle tout au long de la vie (FTLV) connaît une transformation significative dans le contexte actuel de numérisation