Paul Christiano et Beth Barnes cherchent à rendre l’IA avancée honnête et sûre.

Les premiers arguments selon lesquels la « désalignement » de l’IA – lorsque les systèmes d’intelligence artificielle ne font pas ce que les humains leur demandent, ou échouent à se conformer aux valeurs humaines – pourrait représenter un énorme risque pour l’humanité venaient de philosophes et d’autodidactes en marge de l’industrie réelle de l’IA. Aujourd’hui, cependant, la principale entreprise d’IA au monde s’engage à consacrer un cinquième de ses ressources informatiques, d’une valeur de milliards de dollars, à travailler sur l’alignement. Qu’est-il arrivé ? Comment les entreprises d’IA et la Maison Blanche ont-elles fini par prendre au sérieux les préoccupations en matière d’alignement de l’IA ? Paul Christiano et Beth Barnes sont des personnages clés de l’histoire de la sécurité de l’IA devenue populaire. Christiano rédige des articles sur les techniques visant à prévenir les désastres de l’IA depuis ses études de premier cycle, et en tant que chercheur chez OpenAI, il a dirigé le développement de ce qui est maintenant l’approche dominante pour prévenir les comportements flagrants de non-conformité des modèles linguistiques et autres : l’apprentissage par renforcement à partir des commentaires humains, ou RLHF. Dans cette approche, de véritables êtres humains sont invités à évaluer les résultats des modèles tels que GPT-4, et leurs réponses sont utilisées pour régler finement le modèle afin de mieux aligner ses résultats sur les valeurs humaines. C’était un pas en avant, mais Christiano est tout sauf complaisant, et il décrit souvent RLHF comme une simple première approche qui pourrait ne pas fonctionner à mesure que l’IA devient plus puissante. Pour développer des méthodes susceptibles de fonctionner, il a quitté OpenAI pour fonder le Center for Alignment Research (ARC). Là-bas, il poursuit une approche appelée « extrait de connaissances latentes » (ELK), visant à trouver des méthodes pour contraindre les modèles d’IA à dire la vérité et à révéler tout ce qu’ils « savent » sur une situation, même lorsqu’ils sont normalement incités à mentir ou à cacher des informations.

Share the Post: