Ne laissez pas vous abuser : Google a truqué sa démonstration de voix Gemini AI

En bref, Google a impressionné l’internet avec une vidéo de démonstration montrant les capacités multimodales de son dernier modèle de langage Gemini, mais une partie de la démonstration était truquée. Dans la démonstration ci-dessous, Gemini semble pouvoir répondre à la voix d’un utilisateur et interagir avec son environnement, en regardant les dessins qu’il a faits ou en jouant à pierre, papier, ciseaux. Dans la démonstration, Gemini est invité à deviner ce que l’utilisateur est en train de dessiner sur un Post-It, et répond correctement canard, par exemple. Un canard en caoutchouc est alors placé sur une carte géographique en papier, et Gemini est capable d’identifier l’endroit où l’objet a été placé. Il fait toutes sortes de choses: il identifie les objets, trouve où les choses ont été cachées et switched sous des tasses, et plus encore. Google a essayé de montrer les capacités de Gemini à traiter différentes formes d’informations et à effectuer des raisonnements logiques et spatiaux.
Mais en réalité, le modèle n’a pas été alimenté par audio et ses réponses n’étaient que des textes. Ils n’ont pas été générés en temps réel non plus. Au lieu de cela, la vidéo a été conçue « à partir d’images fixes de la séquence, et en invitant via le texte », a déclaré un porte-parole de Google à Bloomberg.

Share the Post: