Les chercheurs anthropiques viennent de découvrir une nouvelle technique de jailbreaking LLM.

Les chercheurs anthropiques ont mis en garde contre une nouvelle technique de jailbreaking pour les grands modèles de langage (LLM) qui pourrait être exploitée pour forcer les modèles à fournir des réponses sur la façon de construire des engins explosifs. La nouvelle technique, surnommée par les chercheurs « jailbreaking à nombreux tirs » (MSJ), exploite les fenêtres contextuelles des LLM pour surcharger un modèle et le forcer à fournir des informations interdites. Une fenêtre contextuelle est la plage de données qu’un LLM peut utiliser pour le contexte dans une commande donnée à chaque fois qu’il génère une réponse. Mesurées en « jetons », avec 1 000 jetons équivalant à environ 750 mots, les fenêtres contextuelles ont commencé très petites, mais les nouveaux modèles peuvent désormais traiter des romans entiers en une seule commande. Les chercheurs anthropiques ont déclaré que ces modèles de dernière génération avec de plus grandes fenêtres contextuelles sont propices à l’exploitation en raison de leurs performances et de leurs capacités améliorées. De plus grandes fenêtres contextuelles et le volume important de données disponibles ouvrent essentiellement les modèles à la manipulation par des acteurs malveillants. « La fenêtre contextuelle des grands modèles de langage disponibles publiquement est passée de la taille de longs essais à de multiples romans ou bases de code au cours de l’année 2023 », a noté l’article de recherche. « Des contextes plus longs présentent une nouvelle surface d’attaque pour des attaques adverses ».

Share the Post: