En bref, Google a impressionné l’internet avec une vidéo de démonstration montrant les capacités multimodales de son dernier modèle de langage Gemini – mais une partie du démonstration était fausse. Dans la démonstration ci-dessous, Gemini semble pouvoir répondre à la voix d’un utilisateur et interagir avec son environnement, en regardant les choses qu’ils ont dessinées ou en jouant à pierre, papier, ciseaux. Dans la démonstration, Gemini est invité à deviner ce que l’utilisateur est en train de dessiner sur un Post-It et répond correctement canard, par exemple. Un canard en caoutchouc est ensuite placé sur une carte géographique en papier et Gemini est capable de l’identifier. Il fait toutes sortes de choses – identifier les objets, trouver où les choses ont été cachées et échangées sous des tasses, et plus encore. Google a essayé de montrer les capacités de Gemini à traiter différentes formes d’informations et à effectuer des raisonnements logiques et spatiaux.
Mais en réalité, le modèle n’a pas été invité à l’aide d’audio et ses réponses n’étaient que textuelles. Ils n’ont pas été générés en temps réel non plus. Au lieu de cela, la vidéo a été conçue « à partir d’images fixes tirées de la vidéo et en invitant via le texte », a déclaré un porte-parole de Google à Bloomberg.
« Les livres de Penguin Random House disent maintenant explicitement ‘non’ à la formation IA »
‘Écrit par Emma Roth, dont le portfolio couvre aussi bien les percées technologiques grand public, les dynamiques de l’industrie du