Dans un court résumé, Google a impressionné l’internet avec une vidéo de démonstration montrant les capacités multimodales de son dernier modèle de langage Gemini – mais une partie du démonstration était fausse. Dans la démonstration ci-dessous, Gemini semble pouvoir répondre à la voix d’un utilisateur et interagir avec son environnement, en regardant les choses qu’ils ont dessinées ou en jouant à pierre, papier, ciseaux. Dans la démonstration, Gemini est invité à deviner ce que l’utilisateur dessine sur un Post-It et répond correctement canard, par exemple. Un canard en caoutchouc est ensuite placé sur une carte géographique en papier et Gemini est capable d’identifier où l’objet a été placé. Il fait toutes sortes de choses – identifier les objets, trouver où les choses ont été cachées et commutées sous les tasses, et plus encore. Google a essayé de montrer les capacités de Gemini à traiter différentes formes d’informations et à effectuer des raisonnements logiques et spatiaux.
Mais en réalité, le modèle n’a pas été invité à l’aide d’audio et ses réponses n’étaient que basées sur le texte. Elles n’ont pas été générées en temps réel non plus. Au lieu de cela, la vidéo a été créée « à l’aide d’images fixes prises dans le film, et invitant via le texte », a déclaré un porte-parole de Google à Bloomberg.
Les Problèmes Communs Rencontrés par la Société dans l’Utilisation Efficace des Derniers Développements de l’Intelligence Artificielle
Les Problèmes Communs Rencontrés par la Société dans l’Utilisation Efficace des Derniers Développements de l’Intelligence Artificielle Introduction L’intelligence artificielle (IA)