Le modèle d’intelligence artificielle phare de Google obtient une mise à jour incroyablement rapide

Le modèle d’IA Gemini d’Alphabet n’a été rendu public que depuis deux mois, mais la société lance déjà une mise à jour. Gemini Pro 1.5, disponible en quantité limitée dès aujourd’hui, est plus puissant que son prédécesseur et peut traiter d’énormes quantités de texte, de vidéo ou d’audio en une seule fois. Demis Hassabis, PDG de Google DeepMind, qui a développé le nouveau modèle, compare sa capacité étendue d’entrée à la mémoire de travail d’une personne, quelque chose qu’il a exploré il y a des années en tant que neuroscientifique. « Le grand avantage de ces capacités fondamentales est qu’elles débloquent des fonctionnalités accessoires que le modèle peut utiliser », dit-il. Lors d’une démonstration, Google DeepMind a montré Gemini Pro 1.5 analysant un PDF de 402 pages contenant la retranscription des communications de la mission Apollo 11. On a demandé au modèle de repérer les parties humoristiques et il a mis en évidence plusieurs moments, comme lorsque les astronautes ont dit qu’un retard de communication était dû à une pause sandwich. Une autre démonstration a montré le modèle répondant à des questions sur des actions spécifiques dans un film de Buster Keaton. La version précédente de Gemini aurait pu répondre à ces questions uniquement pour des quantités beaucoup plus restreintes de texte ou de vidéo. Google espère que les nouvelles capacités permettront aux développeurs de créer de nouveaux types d’applications sur la base du modèle. « C’est vraiment magique de voir comment le modèle réalise ce type de raisonnement sur chaque page, chaque mot », déclare Oriol Vinyals, chercheur chez Google DeepMind. Google indique que Gemini Pro 1.5 peut ingérer et comprendre une heure de vidéo, 11 heures d’audio, 700 000 mots ou 30 000 lignes de code à la fois, soit plusieurs fois plus que d’autres modèles d’IA, y compris le GPT-4 d’OpenAI, qui alimente ChatGPT. La société n’a pas divulgué les détails techniques de cet exploit. Hassabis affirme qu’une utilisation pour les modèles capables de traiter de grandes quantités de texte, testée par les chercheurs de Google DeepMind, consiste à identifier les éléments importants des discussions sur Discord avec des milliers de messages.

Share the Post: