Google a dévoilé hier son nouveau modèle d’IA Gemini, mais sa réception est plutôt mitigée et les utilisateurs ont moins confiance en la technologie ou en l’intégrité de l’entreprise après avoir découvert que la démo la plus impressionnante de Gemini était en grande partie fausse. Une vidéo intitulée « Hands-on with Gemini: Interacting with multimodal AI » a atteint un million de vues en moins d’une journée, ce qui n’est pas étonnant. La démo impressionnante « met en avant quelques-unes de nos interactions préférées avec Gemini », montrant comment le modèle multimodal (c’est-à-dire qu’il comprend et mélange la langue et la compréhension visuelle) peut être flexible et réactif face à une variété d’entrées. Pour commencer, il raconte l’évolution d’un canard à partir d’un squiggle jusqu’à un dessin terminé, en disant qu’il est de couleur irréaliste, puis il manifeste de la surprise (« What the quack! ») en voyant un canard bleu en peluche. Il répond ensuite à diverses requêtes vocales concernant ce jouet, puis la démo passe à d’autres démonstrations, comme suivre une balle dans un jeu de transfert de tasses, reconnaître des gestes de marionnettes d’ombre, réorganiser des dessins de planètes, etc. Tout cela est très réactif, mais la vidéo prévient que « les temps de latence ont été réduits et les sorties de Gemini ont été raccourcies ». Donc, ils sautent une hésitation ici et une réponse trop longue là-bas, d’accord. Dans l’ensemble, c’était une démonstration de force assez étonnante dans le domaine de la compréhension multimodale. Ma propre scepticisme quant à la capacité de Google à livrer un concurrent a pris un coup lorsque j’ai regardé le hands-on.
« Les livres de Penguin Random House disent maintenant explicitement ‘non’ à la formation IA »
‘Écrit par Emma Roth, dont le portfolio couvre aussi bien les percées technologiques grand public, les dynamiques de l’industrie du