« Nous sommes en pleine révolution de l’IA, la dernière décennie ayant vu le développement d’assistants IA qui ont une multitude d’utilisations pratiques, des systèmes qui peuvent créer des images et des vidéos réalistes, ainsi que des modèles prédictifs pour les protéines structurales. Malgré ces avancées, l’intelligence humaine dépasse toujours largement l’IA lorsqu’il s’agit de traiter le monde physique. Comme le met judicieusement en évidence le paradoxe de Moravec, l’IA peut réaliser des tâches « simples » comme gagner aux échecs ou découvrir de nouveaux médicaments, mais peine à accomplir des tâches physiques plus courantes comme plier soigneusement une chemise ou débarrasser une table.
Pour que l’IA acquière le type de polyvalence et d’adaptabilité physique observé chez les humains, une nouvelle stratégie est nécessaire – essentiellement, nous devons rendre l’IA incarnée, lui accordant une intelligence physique. Au cours des huit derniers mois, nous avons travaillé sur un modèle de robot polyvalent appelé π0 (pi-zéro), qui est notre première étape vers la réalisation de cet objectif. Ceci est un effort pour développer une intelligence physique artificielle, permettant aux utilisateurs de donner aux robots n’importe quelle tâche, imitant la façon dont les utilisateurs peuvent demander des tâches à de grands modèles de langage (LLM) et des assistants de chatbot.
De la même manière que les LLM, notre modèle a été formé avec diverses données et peut comprendre différentes commandes textuelles. Il se distingue des LLM par sa capacité à encadrer des images, du texte et des actions, acquérant une intelligence physique via une architecture unique qui apprend grâce à l’expérience incarnée des robots, avec une capacité à output des commandes motrices directement. Il est capable de gérer différents robots, et peut soit recevoir une consigne pour exécuter une tâche souhaitée, soit être affiné pour une application dans des scénarios complexes.
Les robots d’aujourd’hui sont spécialisés pour des tâches étroites. Pensez aux robots industriels qui effectuent des mouvements répétitifs dans des environnements contrôlés, comme faire la même soudure au même endroit sur une chaîne de montage ou placer des objets spécifiques dans les boîtes désignées. De tels comportements simples nécessitent même une ingénierie manuelle intensive. Des comportements plus complexes dans des environnements réels désorganisés, comme les maisons, sont pratiquement inatteignables.
Cependant, l’IA a le potentiel de transformer cela, permettant aux robots de comprendre et d’exécuter les instructions des utilisateurs. De cette façon, la programmation d’une nouvelle fonction est aussi facile que de donner la commande, le robot étant capable d’ajuster son comportement en fonction de son environnement. Pourtant, pour que cela se produise, les données sont essentielles. Les modèles de langage et autres modèles de base extraient des données du Web, en utilisant un pourcentage considérable de documents disponibles. Des données de robot similaires n’existent pas, de grandes quantités de données spécifiques à un but sont donc nécessaires pour qu’un robot puisse apprendre une nouvelle compétence.
Mais, si nous pouvons former une seule politique de robot qui gère un large éventail de compétences et de différents robots, ce défi peut être surmonté. Ce type de modèle n’aurait besoin que d’un peu de données de chaque robot et de chaque application souhaitée. Tout comme les humains peuvent rapidement apprendre une nouvelle compétence en s’appuyant sur une expérience antérieure, une telle politique de robot généraliste pourrait se spécialiser dans de nouvelles tâches avec moins de données. Il convient de noter que les modèles généralistes peuvent surpasser les spécialistes : les modèles de langage ont surpassé les processeurs de langage plus spécialisés parce qu’ils sont meilleurs pour accomplir des tâches spécialisées grâce à leur formation diverse et générale.
De même, de la même manière que les LLM forment la base du langage, ces politiques de robot généralistes seraient la base de l’intelligence physique. Cependant, de grands obstacles techniques nous attendent. Le π0 est notre première étape, un premier modèle prototype qui combine des données multi-tâches et multi-robots à grande échelle avec une nouvelle structure de réseau. Cela nous permet de créer la politique de robot généraliste la plus équipée et la plus agile jusqu’à présent. Nous croyons que c’est juste un petit pas initial vers le développement de modèles de robot véritablement universels, mais c’est une progression excitante qui promet un avenir brillant. »