Ne vous laissez pas berner : Google a truqué sa démonstration vocale de l’IA Gemini

Dans un court résumé, Google a impressionné l’internet avec une vidéo de démonstration montrant les capacités multimodales de son dernier modèle de langage Gemini – mais une partie du démonstration était fausse. Dans la démonstration ci-dessous, Gemini semble pouvoir répondre à la voix d’un utilisateur et interagir avec son environnement, en regardant les choses qu’ils ont dessinées ou en jouant à pierre, papier, ciseaux. Dans la démonstration, Gemini est invité à deviner ce que l’utilisateur dessine sur un Post-It et répond correctement canard, par exemple. Un canard en caoutchouc est ensuite placé sur une carte géographique en papier et Gemini est capable d’identifier où l’objet a été placé. Il fait toutes sortes de choses – identifier les objets, trouver où les choses ont été cachées et commutées sous les tasses, et plus encore. Google a essayé de montrer les capacités de Gemini à traiter différentes formes d’informations et à effectuer des raisonnements logiques et spatiaux.
Mais en réalité, le modèle n’a pas été invité à l’aide d’audio et ses réponses n’étaient que basées sur le texte. Elles n’ont pas été générées en temps réel non plus. Au lieu de cela, la vidéo a été créée « à l’aide d’images fixes prises dans le film, et invitant via le texte », a déclaré un porte-parole de Google à Bloomberg.

Share the Post: