Paul Christiano et Beth Barnes essaient de rendre l’IA avancée honnête et sécurisée.

Les premiers arguments selon lesquels un « décalage » de l’IA – quand les systèmes d’intelligence artificielle ne font pas ce que les humains leur demandent, ou ne parviennent pas à s’aligner sur les valeurs humaines – pourraient représenter un énorme risque pour l’humanité provenaient de philosophes et d’autodidactes en marge de l’industrie actuelle de l’IA. Aujourd’hui, cependant, la principale entreprise d’IA au monde s’engage à consacrer un cinquième de ses ressources informatiques, valant des milliards de dollars, à travailler sur l’alignement. Que s’est-il passé ? Comment les entreprises d’IA et la Maison Blanche en sont-elles venues à prendre au sérieux les préoccupations concernant l’alignement de l’IA ? Paul Christiano et Beth Barnes sont des personnages clés de l’histoire de la façon dont la sécurité de l’IA est devenue un sujet grand public. Christiano écrit depuis ses études de premier cycle sur les techniques visant à prévenir les désastres liés à l’IA, et en tant que chercheur chez OpenAI, il a dirigé le développement de ce qui est aujourd’hui l’approche dominante pour empêcher les comportements inappropriés des modèles de langage et d’autres modèles : l’apprentissage par renforcement à partir des retours des humains, ou RLHF. Dans cette approche, de véritables êtres humains sont invités à évaluer les sorties des modèles comme le GPT-4, et leurs réponses sont utilisées pour affiner le modèle afin que ses réponses s’alignent mieux sur les valeurs humaines. C’était un pas en avant, mais Christiano est loin d’être complaisant, et décrit souvent le RLHF comme simplement une approche préliminaire simple qui pourrait ne pas fonctionner avec la puissance croissante de l’IA. Pour développer des méthodes qui pourraient fonctionner, il a quitté OpenAI pour fonder le Centre de Recherche sur l’Alignement (ARC). Là-bas, il poursuit une approche appelée « susciter la connaissance latente » (ELK), visant à trouver des méthodes pour contraindre les modèles d’IA à dire la vérité et à révéler tout ce qu’ils « savent » sur une situation, même lorsqu’ils pourraient normalement être incités à mentir ou à cacher des informations.

Share the Post: