Paul Christiano et Beth Barnes essaient de rendre l’IA avancée honnête et sûre.

Les premiers arguments selon lesquels le malalignement des IA – lorsque les systèmes intelligents artificiels ne font pas ce que les humains leur demandent, ou ne se mettent pas en alignement avec les valeurs humaines – pourraient représenter un énorme risque pour l’humanité venaient de philosophes et d’autodidactes en marge de l’industrie de l’IA elle-même. Aujourd’hui, cependant, la plus grande entreprise d’IA du monde s’engage à affecter un cinquième de ses ressources informatiques, d’une valeur de milliards de dollars, à la résolution du problème du malalignement. Que s’est-il passé? Comment les entreprises d’IA et la Maison Blanche ont-elles pris au sérieux les inquiétudes liées au malalignement des IA? Paul Christiano et Beth Barnes sont des personnages clés de l’histoire de la façon dont la sécurité des IA est devenue un enjeu majeur. Christiano écrit sur les techniques de prévention des catastrophes liées aux IA depuis qu’il est étudiant de première année, et en tant que chercheur à OpenAI, il a dirigé le développement de ce qui est maintenant la approche dominante pour prévenir les comportements flagrants des modèles linguistiques et autres: l’apprentissage par renforcement à partir de retours humains, ou RLHF. Dans cette approche, des êtres humains réels sont invités à évaluer les résultats de modèles tels que GPT-4, et leurs réponses sont utilisées pour affiner le modèle afin que ses réponses soient mieux alignées avec les valeurs humaines. C’était une avancée, mais Christiano n’est pas complaisant, et décrit souvent le RLHF comme une simple approche de premier jet qui ne pourrait pas fonctionner à mesure que les IA deviennent plus puissantes. Pour développer des méthodes qui pourraient fonctionner, il a quitté OpenAI pour fonder le Alignment Research Center (ARC). Là-bas, il poursuit une approche appelée «élaboration de connaissances latentes» (ELK), destinée à trouver des moyens de contraindre les modèles IA à dire la vérité et à révéler tout ce qu’ils «savent» sur une situation, même lorsqu’ils pourraient être normalement incités à mentir ou à cacher des informations.

Share the Post: