Le nouvel IA de Google DeepMind peut suivre des commandes à l’intérieur de jeux en 3D qu’il n’a jamais vus auparavant.

Google DeepMind a dévoilé de nouvelles recherches mettant en avant un agent d’intelligence artificielle capable d’accomplir une variété de tâches dans des jeux en 3D qu’il n’avait encore jamais vus. L’équipe expérimente depuis longtemps des modèles d’IA capables de gagner à des jeux comme le Go et les échecs, et même d’apprendre des jeux sans connaître leurs règles. Maintenant, pour la première fois, selon DeepMind, un agent d’IA a montré qu’il est capable de comprendre une large gamme de mondes de jeux et d’accomplir des tâches à l’intérieur d’eux basées sur des instructions en langage naturel. Les chercheurs se sont associés à des studios et éditeurs tels que Hello Games (No Man’s Sky), Tuxedo Labs (Teardown) et Coffee Stain (Valheim et Goat Simulator 3) pour entraîner le Scalable Instructable Multiworld Agent (SIMA) sur neuf jeux. L’équipe a également utilisé quatre environnements de recherche, dont un construit sur Unity dans lequel les agents sont instruits pour former des sculptures en utilisant des blocs de construction. Cela a donné à SIMA, décrit comme « un agent d’IA généraliste pour les environnements virtuels en 3D », une variété d’environnements et de paramètres à partir desquels apprendre, avec une variété de styles graphiques et de perspectives (première et troisième personne). « Chaque jeu dans le portefeuille de SIMA ouvre un nouveau monde interactif, comprenant une gamme de compétences à apprendre, de la simple navigation et l’utilisation du menu à l’extraction de ressources, le pilotage d’un vaisseau spatial ou la fabrication d’un casque », ont écrit les chercheurs dans un article de blog. Apprendre à suivre des instructions pour de telles tâches dans des mondes de jeux vidéo pourrait conduire à des agents d’IA plus utiles dans n’importe quel environnement, ont-ils noté. Les chercheurs ont enregistré des humains jouant aux jeux et ont noté les entrées au clavier et à la souris utilisées pour accomplir des actions. Ils ont utilisé ces informations pour entraîner SIMA, qui possède une « cartographie précise image-langage et un modèle vidéo qui prédit ce qui se passera ensuite à l’écran ». L’IA est capable de comprendre une variété d’environnements et d’accomplir des tâches pour atteindre un certain but. Les chercheurs affirment que SIMA n’a pas besoin du code source d’un jeu ou d’un accès à une API – il fonctionne sur des versions commerciales d’un jeu. Il a également besoin de seulement deux entrées : ce qui est affiché à l’écran et les instructions de l’utilisateur. Comme il utilise la même méthode d’entrée au clavier et à la souris qu’un humain, DeepMind affirme que SIMA peut fonctionner dans presque n’importe quel environnement virtuel.

Share the Post: