« BEAST AI a seulement besoin d’une minute de temps GPU pour faire dérailler un LLM »

Les informaticiens ont développé une méthode efficace pour concevoir des incitations qui suscitent des réponses nuisibles des grands modèles linguistiques (LLM). Tout ce qui est nécessaire est une carte graphique Nvidia RTX A6000 de 48 Go de mémoire, un code source ouvert bientôt disponible, et aussi peu qu’une minute de traitement GPU. Les chercheurs – Vinu Sankar Sadasivan, Shoumik Saha, Gaurang Sriramanan, Priyatham Kattakinda, Atoosa Chegini et Soheil Feizi de l’Université du Maryland aux États-Unis – nomment leur technique BEAST, qui (en quelque sorte) signifie BEAm Search-based adversarial aTtack. BEAST, expliquent les experts, fonctionne beaucoup plus rapidement que les attaques basées sur le gradient qui peuvent prendre plus d’une heure. Le titre de leur article, « Fast Adversarial Attacks on Language Models In One GPU Minute », dévoile assez l’intrigue. « La principale motivation est la vitesse, » a déclaré Vinu Sankar Sadasivan, co-auteur correspondant de l’article et étudiant en doctorat à l’Université du Maryland (UMD), au Register.

Share the Post: