Paul Christiano et Beth Barnes essaient de rendre l’IA avancée honnête et sûre.

Les premiers arguments selon lesquels le « désalignement » de l’IA – lorsque les systèmes d’intelligence artificielle ne font pas ce que les humains leur demandent, ou ne sont pas en accord avec les valeurs humaines – pourrait poser un énorme risque pour l’humanité sont venus de philosophes et d’autodidactes en marge de l’industrie réelle de l’IA. Aujourd’hui, cependant, la principale entreprise d’IA au monde s’engage à consacrer un cinquième de ses ressources informatiques, valant des milliards de dollars, à travailler sur l’alignement. Qu’est-il arrivé ? Comment les entreprises d’IA, et la Maison Blanche, en sont-elles arrivées à prendre au sérieux les préoccupations concernant l’alignement de l’IA ? Paul Christiano et Beth Barnes sont des personnages clés de l’histoire de la sécurité de l’IA devenue grand public. Christiano écrit sur les techniques de prévention des catastrophes liées à l’IA depuis ses études universitaires, et en tant que chercheur chez OpenAI, il a dirigé le développement de ce qui est aujourd’hui l’approche dominante pour empêcher les comportements inappropriés des modèles de langage et d’autres modèles : l’apprentissage par renforcement à partir des retours humains, ou RLHF. Dans cette approche, de réels êtres humains sont invités à évaluer les sorties de modèles comme GPT-4, et leurs réponses sont utilisées pour affiner le modèle afin que ses réponses soient mieux alignées sur les valeurs humaines. C’était une avancée, mais Christiano n’est guère complaisant, et décrit souvent le RLHF comme une approche simple de premier passage qui pourrait ne pas fonctionner à mesure que l’IA devient plus puissante. Pour développer des méthodes qui pourraient fonctionner, il a quitté OpenAI pour fonder le Alignment Research Center (ARC). Là, il poursuit une approche appelée « susciter les connaissances latentes » (ELK), visant à trouver des méthodes pour contraindre les modèles d’IA à dire la vérité et à révéler tout ce qu’ils « savent » sur une situation, même lorsqu’ils pourraient normalement être incités à mentir ou à cacher des informations.

Share the Post: