Paul Christiano et Beth Barnes cherchent à rendre l’intelligence artificielle avancée honnête et sécurisée.

Les premiers arguments concernant le « désalignement » de l’IA – lorsque les systèmes intelligents artificiels ne font pas ce que les humains leur demandent, ou échouent à se conformer aux valeurs humaines – pourraient représenter un énorme risque pour l’humanité, ont été avancés par des philosophes et des autodidactes en marge de l’industrie réelle de l’IA. Aujourd’hui, cependant, la principale entreprise d’IA au monde s’engage à consacrer un cinquième de ses ressources informatiques, d’une valeur de plusieurs milliards de dollars, à travailler sur l’alignement. Que s’est-il passé ? Comment les entreprises d’IA et la Maison Blanche ont-elles commencé à prendre au sérieux les préoccupations concernant l’alignement de l’IA ? Paul Christiano et Beth Barnes sont des acteurs clés de l’histoire de la sécurité de l’IA qui est devenue populaire. Christiano écrit sur les techniques visant à prévenir les catastrophes liées à l’IA depuis sa première année d’études, et en tant que chercheur chez OpenAI, il a dirigé le développement de ce qui est maintenant l’approche dominante pour éviter les comportements répréhensibles des modèles linguistiques et autres : l’apprentissage par renforcement à partir des commentaires humains, ou RLHF. Dans cette approche, de véritables êtres humains sont invités à évaluer les sorties des modèles tels que GPT-4, et leurs réponses sont utilisées pour affiner le modèle afin d’améliorer l’alignement de ses réponses avec les valeurs humaines. C’était un pas en avant, mais Christiano est loin d’être complaisant et décrit souvent le RLHF comme une simple première approche qui pourrait ne pas fonctionner à mesure que l’IA devient plus puissante. Pour développer des méthodes qui pourraient fonctionner, il a quitté OpenAI pour fonder le Centre de recherche sur l’alignement (ARC). Là-bas, il poursuit une approche appelée « élicitation des connaissances latentes » (ELK), visant à trouver des méthodes pour contraindre les modèles d’IA à dire la vérité et à révéler tout ce qu’ils « savent » sur une situation, même lorsqu’ils sont normalement incités à mentir ou à cacher des informations.

Share the Post: