Google a fabriqué la meilleure vidéo de démonstration de son intelligence artificielle Gemini.

Google est critiqué par les experts en IA pour une vidéo de promotion mensongère publiée mercredi qui semble montrer que son nouveau modèle d’IA reconnaît des indices visuels et interagit vocalement avec une personne en temps réel. Selon les informations rapportées par Parmy Olson pour Bloomberg, Google a admis que ce n’était pas le cas. Au lieu de cela, les chercheurs ont fourni des images fixes au modèle et ont assemblé des réponses réussies, représentant de manière partiale les capacités du modèle. «Nous avons créé la démo en capturant des images afin de tester les capacités de Gemini sur une large gamme de défis», a déclaré un porte-parole. «Ensuite, nous avons prompt Gemini à l’aide d’images fixes prises dans la séquence, puis nous avons prompt via le texte», a déclaré un porte-parole de Google à Olson. Comme l’indique Olson, Google a filmé les mains de deux humains effectuant des activités, puis a montré des images fixes à Gemini Ultra, une par une. Les chercheurs de Google ont interagi avec le modèle via le texte, pas la voix, puis ont sélectionné les meilleures interactions et les ont assemblées avec la synthèse vocale pour créer la vidéo. Pour l’instant, le traitement par images fixes et par texte à l’aide de modèles de langue massifs est intensif en termes de calcul, ce qui rend l’interprétation vidéo en temps réel largement irréaliste. C’était l’un des indices qui a d’abord conduit les experts en IA à croire que la vidéo était trompeuse. «La vidéo de Google donnait l’impression que vous pouvez montrer différentes choses à Gemini Ultra en temps réel et lui parler. Vous ne pouvez pas », a écrit Olson dans un tweet. Un porte-parole de Google a déclaré que «la voix off de l’utilisateur est composée de véritables extraits des prompts utilisés pour produire la sortie Gemini qui suit». Au cours de la dernière année, OpenAI, un nouveau venu, a marque des points en prenant l’avantage sur Google en termes de technologie générative d’IA, dont certaines origines remontent aux percées de laboratoire de recherche de Google. Le géant de la recherche s’est dépêché de rattraper son retard dès le début de cette année, mettant beaucoup d’efforts dans le concurrent de ChatGPT, Bard, et les grands modèles de langue comme PaLM 2. Google a présenté Gemini comme le premier véritable concurrent du GPT-4 d’OpenAI, encore largement considéré comme le leader du marché des grands modèles de langue.

Share the Post: