La meilleure démonstration de Gemini de Google était truquée.

Le tout nouveau modèle d’IA Gemini de Google reçoit un accueil mitigé après son grand dévoilement hier, mais les utilisateurs pourraient avoir moins confiance en la technologie ou l’intégrité de l’entreprise après avoir découvert que la démonstration la plus impressionnante de Gemini était en grande partie truquée. Une vidéo intitulée « Prise en main de Gemini : interaction avec une IA multimodale » a atteint un million de vues au cours de la dernière journée, et il est facile de comprendre pourquoi. Cette démo impressionnante « met en avant certaines de nos interactions préférées avec Gemini », montrant comment le modèle multimodal (c’est-à-dire qu’il comprend et mélange le langage et la compréhension visuelle) peut être flexible et réactif à une variété d’entrées. Pour commencer, il raconte l’évolution d’un croquis de canard, d’une gribouille à un dessin complet, en précisant que la couleur choisie est irréaliste, puis manifeste sa surprise (« Quelle cacarderie ! ») en voyant un canard en plastique bleu. Il répond ensuite à diverses questions vocales sur ce jouet, puis la démo passe à d’autres mouvements de démonstration, comme suivre une balle dans un jeu de cache-cache avec des tasses, reconnaître des gestes de marionnette d’ombres, réorganiser des croquis de planètes, et ainsi de suite. Tout est très réactif, bien que la vidéo mette en garde contre le fait que « la latence a été réduite et les sorties de Gemini ont été raccourcies ». Donc, ils évitent une hésitation ici et une réponse trop longue là, compris. Dans l’ensemble, c’était un spectacle époustouflant dans le domaine de la compréhension multimodale. Mon propre scepticisme quant à la capacité de Google à proposer un concurrent a été ébranlé lorsque j’ai regardé la démonstration pratique.

Share the Post: