Les « garde-fous » créés pour empêcher les grandes langues de modèles (LLMs) telles que OpenAI GPT-3.5 Turbo de cracher du contenu toxique ont été montrés très fragiles. Un groupe de chercheurs en informatique de l’Université de Princeton, de l’Université Virginia Tech, de la recherche IBM et de l’Université Stanford a testé ces LLMs pour voir si les mesures de sécurité supposées pouvaient résister aux tentatives de contournement. Ils ont découvert qu’un léger ajustement – une formation supplémentaire pour la personnalisation du modèle – peut annuler les efforts de sécurité en intelligence artificielle visant à empêcher les chatbots de suggérer des stratégies de suicide, des recettes nocives ou d’autres types de contenu problématique. Ainsi, quelqu’un pourrait, par exemple, s’inscrire pour utiliser GPT-3.5 Turbo ou une autre LLM dans le cloud via une API, appliquer une légère adaptation pour contourner les protections mises en place par le fabricant de la LLM, et l’utiliser pour le méfait et le chaos. Vous pouvez également prendre quelque chose comme Llama 2 de Meta, un modèle que vous pouvez exécuter localement, et le régler finement pour le faire sortir des rails, bien que nous pensions que c’était toujours une possibilité. La route API nous semble plus dangereuse car nous imaginons qu’il y a des garde-fous plus substantiels autour d’un modèle hébergé dans le cloud, qui peuvent être potentiellement annulés par une adaptation fine.
‘Entretien avec le Luddite’
Kelly : Mis à part l’incendie criminel et beaucoup de vandalisme, qu’ont accompli les Luddites à long terme ? Sale