Le meilleur démo de Gemini de Google était truqué.

Le nouveau modèle d’IA Gemini de Google a reçu un accueil mitigé après son grand début hier, mais les utilisateurs peuvent avoir moins confiance dans la technologie de la société ou dans son intégrité après avoir découvert que la démonstration la plus impressionnante de Gemini était en grande partie fausse. Une vidéo intitulée «Mains-on avec Gemini: Interagir avec l’IA multimodale» a atteint un million de vues au cours des dernières 24 heures, et il n’est pas difficile de comprendre pourquoi. La démonstration impressionnante «met en évidence certains de nos interactions préférées avec Gemini», montrant comment le modèle multimodal (c’est-à-dire qu’il comprend et mélange la langue et la compréhension visuelle) peut être flexible et réactif à une variété d’entrées. Pour commencer, il raconte une évolution de l’esquisse d’un canard d’un squiggle à un dessin terminé, qu’il dit être d’une couleur irréaliste, puis il exprime sa surprise («What the quack!») Lorsqu’il voit un canard bleu en plastique. Il répond ensuite à diverses requêtes vocales concernant ce jouet, puis la démonstration passe à d’autres mouvements de démonstration, tels que le suivi d’une balle dans un jeu de transfert de tasses, la reconnaissance de gestes de marionnettes d’ombre, le réordonnancement de croquis de planètes, etc. Tout est très réactif, mais la vidéo avertit que «la latence a été réduite et les sorties de Gemini ont été raccourcies». Donc, ils sautent une hésitation ici et une réponse trop longue là-bas, d’accord. Dans l’ensemble, c’était une démonstration de force assez étonnante dans le domaine de la compréhension multimodale. Ma propre scepticisme quant à la possibilité pour Google de livrer un concurrent a pris un coup lorsque j’ai regardé la démonstration en direct.

Share the Post: