La meilleure démonstration de Gemini de Google était une fausse

Le nouveau modèle d’IA Gemini de Google a reçu un accueil mitigé après sa grande entrée en scène hier, mais les utilisateurs peuvent avoir moins confiance en la technologie ou en l’intégrité de l’entreprise après avoir découvert que la démonstration la plus impressionnante de Gemini était en grande partie truquée. Une vidéo intitulée «Un aperçu de Gemini : interagir avec une IA multimodale» a atteint un million de vues au cours de la dernière journée, et il n’est pas difficile de comprendre pourquoi. La démonstration impressionnante «met en évidence certaines de nos interactions préférées avec Gemini», montrant comment le modèle multimodal (c’est-à-dire qu’il comprend et mélange la langue et la compréhension visuelle) peut être flexible et réactif à une variété d’entrées. Pour commencer, il raconte une évolution de l’esquisse d’un canard d’un gribouillis à un dessin terminé, ce qu’il dit être une couleur irréaliste, puis exprime sa surprise («Qu’est-ce que le canard bleu !») en voyant un jouet canard bleu. Il répond ensuite à diverses requêtes vocales concernant ce jouet, puis la démonstration passe à d’autres mouvements de démonstration, comme suivre une balle dans un jeu de transfert de tasses, reconnaître des gestes de marionnettes d’ombre, réorganiser des esquisses de planètes, etc. Tout est très réactif, mais la vidéo prévient qu’«un délai et des sorties Gemini ont été réduits». Donc, ils passent par une hésitation ici et une réponse trop longue là-bas, d’accord. Dans l’ensemble, c’était une démonstration assez étonnante de la force dans le domaine de la compréhension multimodale. Ma propre scepticisme quant à la capacité de Google de livrer un concurrent a pris un coup quand je l’ai vu en action.

Share the Post: