« Le nouvel assistant AI Project Astra de Google m’a impressionné, mais il est loin d’être terminé »

Pour une présentation qui s’est étendue sur deux heures, la keynote de l’I/O 2024 était pauvre en démonstrations impressionnantes pour lesquelles la conférence des développeurs de Google était connue dans les années précédentes. Très peu des teasers partagés par l’entreprise mardi ont suscité l’excitation qui avait entouré la première démo de ce qui allait devenir l’outil Magic Eraser du Pixel en 2017. Google a présenté un assistant IA multimodal capable de voir, entendre, converser et, surtout, se souvenir. Ce n’est que lorsque le PDG de DeepMind, Demis Hassabis, est monté sur scène pour annoncer le Projet Astra que les choses ont pris une tournure intéressante. Dans la démo de deux minutes qui a suivi, Google a présenté un assistant IA multimodal capable de voir, entendre, converser et, surtout, se souvenir. Dans les derniers instants de la démo, cette dernière capacité a été mise en avant lorsque quelqu’un hors champ a demandé au logiciel s’il se souvenait d’avoir vu ses lunettes. L’audience a applaudi lorsque l’assistant, alimenté par le modèle Pro Gemini 1.5 de Google, a répondu qu’il avait vu une paire de lunettes sur un bureau vu quelques instants auparavant. Après le dernier discours, j’ai pu observer l’assistant à l’œuvre. À la fin de la démo, Hassabis a annoncé avec surprise que Google avait une démo en direct du Projet Astra à montrer aux participants après la keynote. Ce que j’ai vu était impressionnant, mais a également montré que Google avait encore beaucoup de travail à accomplir avant que le Projet Astra ne soit assez fiable pour être mis entre les mains des consommateurs.
La première partie de la démo presse a vu Google mettre en avant les compétences en allitération de Gemini. Un employé de Google a placé quelques peluches, dont une en forme de banane et une autre en forme de hot-dog, devant une caméra, et a posé des questions à l’assistant sur les objets. Je dois admettre que certaines réponses étaient astucieuses. Par exemple, concernant le hot-dog, le logiciel a dit qu’il pourrait faire partie d’une « collation sympa ». J’ai ensuite appris que « nosh » signifie grignoter. Des points pour la créativité. Plus tard dans cette même démo, l’employé responsable de la présentation a demandé à Gemini de dire quelque chose sur la valeur nutritionnelle des articles sur la table. Plutôt que de dire quelque chose de substantiel, Gemini a opté pour une phrase banale, notant que les aliments « colorés » sont un bon moyen de manger sainement. L’employé a essayé de pousser Gemini à donner une réponse plus précise, mais sans succès. Ils ont ensuite admis que le fait que Gemini était limité à l’allitération dans ses réponses avait peut-être perturbé l’IA.
Une chose que les deux employés qui animaient la démo ont rapidement soulignée était que le Projet Astra n’était pas un produit fini. Cela peut sembler être une étrange déclaration, mais pour être honnête, il était rafraîchissant de voir Google éviter de cacher les imperfections de Gemini en organisant une démo trop polie. En effet, le logiciel a commis de nombreuses erreurs pendant les 10 minutes environ où j’ai pu le voir en action. Par exemple, vers la fin de la démo, l’un des employés de Google a demandé à Gemini de mémoriser les noms de trois peluches qu’elle avait placées devant la caméra. Il y avait Sam le berger allemand, George la souris et Lily le flamant rose dans l’ordre. Elle a ensuite posé des questions à Gemini sur les peluches, y compris sur l’ordre dans lequel elle les avait placées devant la caméra, et c’est là que le logiciel a connu des difficultés. Il n’a pas donné le bon ordre des peluches. « George a été le premier ami que tu m’as présenté, » a déclaré Gemini, avec la confiance typique des IA. À son crédit, le logiciel a admis son erreur lorsque l’employé l’a corrigé. « Oui, tu as raison. Sam a été le premier. » Malgré ces erreurs, j’ai eu l’impression de voir un aperçu du futur. Peut-être pas un futur avec une intelligence artificielle générale, mais au moins quelque chose qui pourrait être utile à des millions de personnes, notamment celles en situation de handicap. « C’est un bon bonhomme bâton, » a déclaré Gemini en voyant le dessin. « C’est très flatteur, » a noté l’employé qui dessinait.
Ma partie préférée de la démo a vu les deux employés jouer à Pictionary avec Gemini. L’un des travailleurs a commencé à dessiner un bonhomme bâton. « C’est un bon bonhomme bâton, » a déclaré Gemini en voyant le dessin. « C’est très flatteur, » a noté l’employé qui dessinait. Ils ont ensuite ajouté un emoji de crâne pour que le bonhomme bâton le tienne, et ont demandé à Gemini de deviner. « Est-ce Hamlet? » a demandé l’assistant. « Oui, c’est ça, » a répondu l’employé. C’était un échange fantaisiste qui a réussi à dissipé une partie du scepticisme que j’avais lorsque j’ai vu pour la première fois Google démo Project Astra. Cependant, avant tout, la démonstration que j’ai vue a confirmé qu’un assistant IA tout-puissant et tout-utile est encore loin dans le futur. En parlant aux deux employés de Google qui animaient la démo, j’ai découvert que la capacité d’Astra à « se souvenir » est actuellement limitée à une seule session, et cela pendant seulement quelques minutes. De plus, l’assistant dépend du cloud pour fonctionner, au lieu de pouvoir s’exécuter exclusivement sur l’appareil. Je suis sûr que Google finira par surmonter ces limitations, mais je ne m’attends pas à ce que ces avancées soient faciles ou rapides.

Share the Post: