‘La meilleure démonstration de Gemini de Google était truquée’

Le nouveau modèle de l’IA Gemini de Google a reçu un accueil mitigé après sa grande présentation d’hier, mais les utilisateurs peuvent avoir moins confiance dans la technologie ou l’intégrité de la société après avoir découvert que la démonstration la plus impressionnante de Gemini était en grande partie truquée. Une vidéo intitulée «Interaction avec l’IA multimodale Gemini» a atteint un million de vues en moins d’une journée, ce qui n’est pas étonnant. La démonstration impressionnante «met en évidence quelques-unes de nos interactions préférées avec Gemini», montrant à quel point le modèle multimodal (c’est-à-dire qu’il comprend et mélange langage et compréhension visuelle) peut être flexible et réactif à une variété d’entrées. Pour commencer, il raconte une évolution de l’esquisse d’un canard d’un gribouillis à un dessin terminé, qu’il dit de couleur irréaliste, puis il exprime sa surprise («What the quack!») en voyant un canard bleu en plastique. Il répond ensuite à diverses requêtes vocales concernant ce jouet, puis la démonstration passe à d’autres mouvements de démonstration, comme le suivi d’une balle dans un jeu de transfert de tasses, la reconnaissance de gestes de marionnettes d’ombre, la réorganisation de croquis de planètes, etc. Tout est très réactif, mais la vidéo indique que «les temps de latence ont été réduits et les sorties de Gemini ont été abrégées». Donc, ils passent par une hésitation ici et une réponse trop longue là-bas, d’accord. Dans l’ensemble, c’était une démonstration de force assez étonnante dans le domaine de la compréhension multimodale. Ma propre scepticisme quant à la possibilité pour Google de délivrer un concurrent a pris un coup quand j’ai regardé la démonstration.

Share the Post: