En bref, Google a impressionné l’internet avec une vidéo de démonstration montrant les capacités multimodales de son dernier modèle de langage Gemini, mais une partie de la démonstration était truquée. Dans la démonstration ci-dessous, Gemini semble pouvoir répondre à la voix d’un utilisateur et interagir avec son environnement, en regardant les dessins qu’il a faits ou en jouant à pierre, papier, ciseaux. Dans la démonstration, Gemini est invité à deviner ce que l’utilisateur est en train de dessiner sur un Post-It, et répond correctement canard, par exemple. Un canard en caoutchouc est alors placé sur une carte géographique en papier, et Gemini est capable d’identifier l’endroit où l’objet a été placé. Il fait toutes sortes de choses: il identifie les objets, trouve où les choses ont été cachées et switched sous des tasses, et plus encore. Google a essayé de montrer les capacités de Gemini à traiter différentes formes d’informations et à effectuer des raisonnements logiques et spatiaux.
Mais en réalité, le modèle n’a pas été alimenté par audio et ses réponses n’étaient que des textes. Ils n’ont pas été générés en temps réel non plus. Au lieu de cela, la vidéo a été conçue « à partir d’images fixes de la séquence, et en invitant via le texte », a déclaré un porte-parole de Google à Bloomberg.
Les Problèmes Communs Rencontrés par la Société dans l’Utilisation Efficace des Derniers Développements de l’Intelligence Artificielle
Les Problèmes Communs Rencontrés par la Société dans l’Utilisation Efficace des Derniers Développements de l’Intelligence Artificielle Introduction L’intelligence artificielle (IA)