Dans un court article, Google a impressionné l’internet avec une vidéo de démonstration montrant les capacités multimodales de son dernier modèle de langue large Gemini – mais une partie du démonstration était fausse. Dans la démonstration ci-dessous, Gemini semble pouvoir répondre à la voix d’un utilisateur et interagir avec son environnement, en regardant les choses qu’ils ont dessinées ou en jouant à pierre, papier, ciseaux. Dans la démonstration, Gemini est invité à deviner ce que l’utilisateur dessine sur un Post-It et répond correctement canard, par exemple. Un canard en caoutchouc est ensuite placé sur un atlas en papier et Gemini est capable d’identifier où l’objet a été placé. Il fait toutes sortes de choses – identifie les objets, trouve où les choses ont été cachées et commutées sous les tasses, et plus encore. Google a essayé de montrer les capacités de Gemini à traiter différentes formes d’informations et à exécuter des raisonnements logiques et spatiaux.
Mais en réalité, le modèle n’a pas été invité à l’aide d’audio et ses réponses n’étaient que des réponses basées sur le texte. Ils n’ont pas été générés en temps réel non plus. Au lieu de cela, la vidéo a été créée « à l’aide d’images fixes tirées de la vidéo et de questions posées via le texte », a déclaré un porte-parole de Google à Bloomberg.
Les Problèmes Communs Rencontrés par la Société dans l’Utilisation Efficace des Derniers Développements de l’Intelligence Artificielle
Les Problèmes Communs Rencontrés par la Société dans l’Utilisation Efficace des Derniers Développements de l’Intelligence Artificielle Introduction L’intelligence artificielle (IA)