La meilleure démo de Gemini de Google était truquée

Google lance son nouveau modèle Gemini AI et reçoit un accueil mitigé après son grand début d’hier, mais les utilisateurs peuvent avoir moins confiance dans la technologie ou l’intégrité de l’entreprise après avoir découvert que la démonstration la plus impressionnante de Gemini était en grande partie truquée. Une vidéo intitulée «Interaction avec Gemini: interaction avec l’IA multimodale» a atteint un million de vues au cours des dernières 24 heures, et il n’est pas difficile de comprendre pourquoi. La démonstration impressionnante «met en évidence certaines de nos interactions préférées avec Gemini», montrant à quel point le modèle multimodal (c’est-à-dire qu’il comprend et mélange la langue et la compréhension visuelle) peut être flexible et réactif à une variété d’entrées. Pour commencer, il raconte l’évolution d’un canard à partir d’un squiggle à une image complète, ce qui, dit-il, est une couleur irréaliste, puis exprime sa surprise («Quack!») Lorsqu’il voit un canard bleu en plastique. Il répond ensuite à diverses requêtes vocales concernant ce jouet, puis la démonstration passe à d’autres actions impressionnantes, comme suivre une balle dans un jeu de transfert de tasses, reconnaître des gestes de marionnettes d’ombre, réorganiser des croquis de planètes, etc. Tout est très réactif, mais la vidéo prévient que «la latence a été réduite et les sorties de Gemini ont été abrégées». Donc, ils passent outre une hésitation ici et une réponse trop longue là-bas, d’accord. Dans l’ensemble, c’était une démonstration assez étonnante de la force dans le domaine de la compréhension multimodale. Ma propre scepticisme quant à la possibilité pour Google de livrer un concurrent a pris un coup lorsque j’ai regardé la démonstration en direct.

Share the Post: