Les « garde-fous » créés pour empêcher les grandes langues de modèles (LLM) comme OpenAI GPT-3.5 Turbo de cracher des contenus toxiques ont été démontrés être très fragiles. Un groupe de scientifiques en informatique de l’Université de Princeton, de l’Université Virginia Tech, de IBM Research et de l’Université Stanford ont testé ces LLM pour voir si les mesures de sécurité supposées pouvaient résister aux tentatives de contournement. Ils ont constaté qu’un léger ajustement – une formation supplémentaire pour la personnalisation du modèle – peut annuler les efforts de sécurité de l’IA visant à empêcher les chatbots de suggérer des stratégies de suicide, des recettes nocives ou d’autres types de contenu problématique. Ainsi, quelqu’un pourrait, par exemple, s’inscrire pour utiliser GPT-3.5 Turbo ou une autre LLM dans le cloud via une API, y appliquer un léger ajustement pour contourner les protections mises en place par le fabricant de la LLM, et l’utiliser pour semer le trouble et la désolation. Vous pourriez également prendre quelque chose comme Llama 2 de Meta, un modèle que vous pouvez exécuter localement, et le peaufiner pour le faire sortir des rails, bien que nous ayons toujours pensé que c’était une possibilité. La voie de l’API nous semble plus dangereuse car nous imaginons qu’il y a des garde-fous plus importants autour d’un modèle hébergé dans le cloud, qui peuvent être potentiellement vaincus par un ajustement fin.
Les Problèmes Communs Rencontrés par la Société dans l’Utilisation Efficace des Derniers Développements de l’Intelligence Artificielle
Les Problèmes Communs Rencontrés par la Société dans l’Utilisation Efficace des Derniers Développements de l’Intelligence Artificielle Introduction L’intelligence artificielle (IA)