Dans un court résumé, Google a impressionné l’internet avec une vidéo de démonstration montrant les capacités multimodales de son dernier modèle de langue Gemini – mais une partie de la démonstration était fausse. Dans la démonstration ci-dessous, Gemini semble pouvoir répondre à la voix d’un utilisateur et interagir avec son environnement, en regardant les choses qu’ils ont dessinées ou en jouant à pierre, papier, ciseaux. Dans la démonstration, Gemini est invité à deviner ce que l’utilisateur est en train de dessiner sur un Post-It et répond correctement canard, par exemple. Un canard en caoutchouc est ensuite placé sur une carte géographique en papier et Gemini est capable d’identifier l’endroit où l’objet a été placé. Il fait toutes sortes de choses – identifie les objets, trouve où les choses ont été cachées et interverties sous les tasses, et plus encore. Google a essayé de montrer les capacités de Gemini à traiter différentes formes d’informations et à faire preuve de raisonnement logique et spatial.
Mais en réalité, le modèle n’a pas été invité à l’aide d’audio et ses réponses n’étaient que des réponses basées sur le texte. Ils n’ont pas été générés en temps réel non plus. Au lieu de cela, la vidéo a été créée « en utilisant des images fixes prises dans le footage, et en invitant via le texte », a déclaré un porte-parole de Google à Bloomberg.
« Les livres de Penguin Random House disent maintenant explicitement ‘non’ à la formation IA »
‘Écrit par Emma Roth, dont le portfolio couvre aussi bien les percées technologiques grand public, les dynamiques de l’industrie du