Ne laissez pas les apparences vous tromper : Google a truqué sa démonstration de l’IA Gemini

Dans un court article, Google a impressionné l’internet avec une vidéo de démonstration montrant les capacités multimodales de son dernier modèle de langue large Gemini – mais une partie du démonstration était fausse. Dans la démonstration ci-dessous, Gemini semble pouvoir répondre à la voix d’un utilisateur et interagir avec son environnement, en regardant les choses qu’ils ont dessinées ou en jouant à pierre, papier, ciseaux. Dans la démonstration, Gemini est invité à deviner ce que l’utilisateur dessine sur un Post-It et répond correctement canard, par exemple. Un canard en caoutchouc est ensuite placé sur un atlas en papier et Gemini est capable d’identifier où l’objet a été placé. Il fait toutes sortes de choses – identifie les objets, trouve où les choses ont été cachées et commutées sous les tasses, et plus encore. Google a essayé de montrer les capacités de Gemini à traiter différentes formes d’informations et à exécuter des raisonnements logiques et spatiaux.
Mais en réalité, le modèle n’a pas été invité à l’aide d’audio et ses réponses n’étaient que des réponses basées sur le texte. Ils n’ont pas été générés en temps réel non plus. Au lieu de cela, la vidéo a été créée « à l’aide d’images fixes tirées de la vidéo et de questions posées via le texte », a déclaré un porte-parole de Google à Bloomberg.

Share the Post: