‘La meilleure vidéo de démonstration d’intelligence artificielle de Google est fausse’

Google est confronté à la controverse parmi les experts en IA pour une vidéo publicitaire trompeuse de Gemini publiée mercredi qui semble montrer que son nouveau modèle d’IA reconnaît des indices visuels et interagit vocalement en temps réel avec une personne. Comme l’a rapporté Parmy Olson pour Bloomberg, Google a admis que ce n’était pas le cas. Au lieu de cela, les chercheurs ont donné des images fixes au modèle et ont monté ensemble des réponses réussies, représentant partiellement les capacités du modèle. «Nous avons créé la démo en capturant des images afin de tester les capacités de Gemini sur une large gamme de défis», a déclaré un porte-parole. «Nous avons alors interrogé Gemini en utilisant des images fixes tirées de la séquence, et en lui fournissant des indices via le texte», a déclaré un porte-parole de Google à Olson. Comme l’a fait remarquer Olson, Google a filmé les mains de deux personnes humaines effectuant des activités, puis a montré une image fixe à Gemini Ultra, une par une. Les chercheurs de Google ont interagi avec le modèle via le texte, et non la voix, puis ont sélectionné les meilleures interactions et les ont montées ensemble avec une synthèse vocale pour réaliser la vidéo. Pour l’instant, le traitement d’images fixes et de texte par des modèles de langage massifs est intensif en calcul, ce qui rend l’interprétation vidéo en temps réel largement impraticable. C’était l’un des indices qui ont d’abord conduit les experts en IA à croire que la vidéo était trompeuse. «La vidéo de Google donnait l’impression qu’on pouvait montrer différentes choses à Gemini Ultra en temps réel et lui parler. On ne peut pas», a écrit Olson dans un tweet. Un porte-parole de Google a déclaré que «la voix off de l’utilisateur est composée de vrais extraits des indices utilisés pour produire la sortie de Gemini qui suit». Au cours de l’année dernière, OpenAI a embarrassé Google en prenant l’avantage en matière de technologie d’IA générative, dont certaines ont pour origine les percées du laboratoire de recherche de Google. Le géant de la recherche s’est dépêché de rattraper son retard dès le début de cette année, mettant beaucoup d’efforts dans son concurrent ChatGPT, Bard, et dans les grands modèles de langage comme PaLM 2. Google a présenté Gemini comme le premier véritable rival du GPT-4 d’OpenAI, qui est toujours largement considéré comme le leader sur le marché des grands modèles de langage.

Share the Post: