Le meilleur démo vidéo d’IA de Google était fabriqué

Google est confronté à la controverse parmi les experts en IA pour une vidéo publicitaire Gemini trompeuse publiée mercredi qui semble montrer son nouveau modèle IA reconnu les indices visuels et en interagissant vocalement avec une personne en temps réel. Selon ce que rapporte Parmy Olson pour Bloomberg, Google a admis que ce n’était pas le cas. Au lieu de cela, les chercheurs ont alimenté des images fixes au modèle et édité ensemble les réponses réussies, trompe partialement les capacités du modèle. «Nous avons créé la démo en capturant des images afin de tester les capacités de Gemini sur une large gamme de défis», a déclaré un porte-parole. «Nous avons alors invité Gemini à l’aide d’images fixes tirées de la vidéo, et en invitant via le texte», a déclaré un porte-parole de Google à Olson. Comme l’indique Olson, Google a tourné une paire de mains humaines effectuant des activités, puis a montré des images fixes à Gemini Ultra, une par une. Les chercheurs de Google ont interagi avec le modèle par le biais du texte, et non de la voix, puis ont sélectionné les meilleures interactions et les ont éditées ensemble avec une synthèse vocale pour créer la vidéo. À l’heure actuelle, l’exécution d’images fixes et de texte à travers des modèles de langage massifs est intensément informatique, ce qui rend l’interprétation vidéo en temps réel largement impraticable. C’était l’un des indices qui a d’abord conduit les experts en IA à croire que la vidéo était trompeuse. «La vidéo de Google a fait en sorte qu’il semblait possible de montrer différentes choses à Gemini Ultra en temps réel et de lui parler. Vous ne pouvez pas », a tweeté Olson. Un porte-parole de Google a déclaré que «la voix off de l’utilisateur est composée d’extraits réels des invitations réelles utilisées pour produire la sortie de Gemini qui suit». Au cours de la dernière année, OpenAI a embarrassé Google en prenant l’avantage en matière de technologie d’IA générative, dont une partie remonte aux percées du laboratoire de recherche de Google. Le géant de la recherche a été contraint de se rattraper au début de cette année, mettant beaucoup d’efforts dans le concurrent de ChatGPT Bard et les grands modèles de langage tels que PaLM 2. Google a présenté Gemini comme le premier véritable rival du GPT-4 d’OpenAI, qui est toujours largement considéré comme le leader des grands modèles de langage.

Share the Post: