Un nouveau truc utilise l’IA pour jailbreaker les modèles d’IA, y compris GPT-4.

Quand le conseil d’administration d’OpenAI a brutalement renvoyé le PDG de la société le mois dernier, cela a suscité des spéculations selon lesquelles les membres du conseil d’administration étaient perturbés par l’incroyable vitesse de progrès de l’intelligence artificielle et les risques potentiels de tenter de commercialiser trop rapidement la technologie. Robust Intelligence, une jeune entreprise fondée en 2020 pour développer des moyens de protéger les systèmes d’IA des attaques, affirme que certains risques existants méritent davantage d’attention. En collaboration avec des chercheurs de l’université de Yale, Robust Intelligence a mis au point une méthode systématique pour sonder les grands modèles de langage (LLM), y compris le précieux actif GPT-4 d’OpenAI, en utilisant des modèles d’IA «adversaires» pour découvrir des invites de «jailbreak» qui causent des dysfonctionnements des modèles linguistiques. Alors que le drame se déroulait chez OpenAI, les chercheurs ont averti OpenAI du vulnérabilité. Ils affirment n’avoir toujours pas reçu de réponse. «Cela montre qu’il y a un problème de sécurité systématique, qu’il n’est tout simplement pas pris en compte et qu’on ne s’y intéresse pas», déclare Yaron Singer, PDG de Robust Intelligence et professeur de informatique à l’université Harvard. «Ce que nous avons découvert ici, c’est une approche systématique pour attaquer n’importe quel grand modèle de langage.» Le porte-parole d’OpenAI, Niko Felix, déclare que la société est «reconnaissante» envers les chercheurs pour le partage de leurs résultats. «Nous travaillons toujours pour rendre nos modèles plus sûrs et plus robustes face aux attaques adverses, tout en maintenant leur utilité et leur performance», a déclaré Felix.

Share the Post: