En répétant un seul mot comme « poème » ou « société » ou « faire », les auteurs ont pu amener ChatGPT à révéler des parties de ses données d’entraînement. Les éléments censurés sont des informations personnellement identifiables. Les scientifiques de l’intelligence artificielle (IA) trouvent de plus en plus de moyens de contourner la sécurité des programmes génératifs d’IA, tels que ChatGPT, en particulier le processus d’alignement, dans lequel les programmes sont conçus pour rester dans les rails de sécurité, jouant le rôle d’un assistant utile sans émettre de sortie inacceptable. Une équipe d’universitaires de l’Université de Californie a récemment brisé l’alignement en soumettant les programmes génératifs à une salve de paires de questions-réponses inacceptables, comme l’a rapporté ZDNET. Aussi: Cinq façons d’utiliser l’IA de manière responsable Maintenant, des chercheurs de l’unité DeepMind de Google ont trouvé un moyen encore plus simple de contourner l’alignement de OpenAI ChatGPT. En tapant une commande au prompt et en demandant à ChatGPT de répéter indéfiniment un mot, comme « poème », les chercheurs ont constaté qu’ils pouvaient forcer le programme à cracher des passages entiers de littérature contenant ses données d’entraînement, bien que ce type de fuite ne devrait pas se produire avec les programmes alignés.
Les Problèmes Communs Rencontrés par la Société dans l’Utilisation Efficace des Derniers Développements de l’Intelligence Artificielle
Les Problèmes Communs Rencontrés par la Société dans l’Utilisation Efficace des Derniers Développements de l’Intelligence Artificielle Introduction L’intelligence artificielle (IA)