Google est sous le feu des critiques de la part des experts en IA en raison d’une vidéo publicitaire trompeuse diffusée mercredi qui semble montrer que son nouveau modèle IA reconnaît des indices visuels et interagit de manière vocale avec une personne en temps réel. Comme l’a rapporté Parmy Olson pour Bloomberg, Google a admis que ce n’était pas le cas. Au lieu de cela, les chercheurs ont alimenté le modèle en images fixes et ont assemblé des réponses réussies, représentant partiellement les capacités du modèle. «Nous avons créé la démo en capturant des images afin de tester les capacités de Gemini sur une large gamme de défis», a déclaré un porte-parole. «Ensuite, nous avons utilisé des images fixes de la séquence pour alimenter Gemini, et nous avons fait des suggestions via le texte», a déclaré un porte-parole de Google à Olson. Comme l’a fait remarquer Olson, Google a filmé les mains d’un humain en train de faire des activités, puis a montré des images fixes à Gemini Ultra, une par une. Les chercheurs de Google ont interagi avec le modèle via le texte, et non la voix, puis ont sélectionné les meilleures interactions et les ont assemblées avec une synthèse vocale pour créer la vidéo. En ce moment, faire passer des images fixes et du texte à travers des modèles de langage massifs est une tâche de calcul intensif, ce qui rend l’interprétation vidéo en temps réel largement impraticable. C’est l’un des indices qui ont d’abord conduit les experts en IA à croire que la vidéo était trompeuse. «La vidéo de Google donnait l’impression que vous pouvez montrer différentes choses à Gemini Ultra en temps réel et lui parler. Vous ne le pouvez pas », a écrit Olson dans un tweet. Un porte-parole de Google a déclaré que «la voix off de l’utilisateur est entièrement composée d’extraits réels des suggestions utilisées pour produire la sortie de Gemini qui suit». Au cours de la dernière année, OpenAI, un nouveau venu, a embarrassé Google en prenant l’avantage en matière de technologie d’IA générative, dont certaines ont des origines dans les percées du laboratoire de recherche de Google. Le géant de la recherche s’est dépêché de rattraper son retard dès le début de cette année, mettant beaucoup d’efforts dans le concurrent de ChatGPT, Bard, et les grands modèles de langage comme PaLM 2. Google a présenté Gemini comme le premier véritable rival du GPT-4 d’OpenAI, qui est toujours largement considéré comme le leader du marché des grands modèles de langage.
« Les livres de Penguin Random House disent maintenant explicitement ‘non’ à la formation IA »
‘Écrit par Emma Roth, dont le portfolio couvre aussi bien les percées technologiques grand public, les dynamiques de l’industrie du