Google a dévoilé Gemini, sa nouvelle classe de modèles basés sur les transformateurs les plus puissants à ce jour, capables de traiter le texte, les images, l’audio et la vidéo. Gemini est un modèle multimodal avec une fenêtre de contexte de 32 000 mots qui peut prendre différents types de données en entrée et générer des images et du texte en sortie, et se décline en trois tailles différentes. La plus grande, Gemini Ultra, est la version la plus puissante conçue pour les tâches complexes nécessitant une « raisonnement » ou le traitement de plusieurs types de données. Gemini Pro, est le modèle de taille moyenne qui a été optimisé pour fonctionner plus efficacement et effectuer une gamme plus large de tâches. Le plus petit Gemini Nano est divisé en deux, le Nano-1 compte 1,8 milliard de paramètres, et le Nano-2 en compte 3,25 milliards, et sont conçus pour fonctionner sur de petits appareils. Google n’a pas révélé combien de paramètres comptent ses modèles Gemini Pro et Gemini Ultra plus puissants. Alors, à quoi Gemini sert-il ? À partir d’aujourd’hui, son chatbot AI Bard a été mis à jour pour fonctionner avec Gemini Pro, ce qui signifie qu’il devrait mieux comprendre et résumer le texte que sa version précédente alimentée par le langage PaLM 2 de Google. Les capacités multimodales ne sont cependant pas tout à fait prêtes et la version Gemini-Pro de Bard ne peut traiter et générer que du texte, et ne prend en charge que l’anglais pour l’instant. Google prévoit également de moderniser certains de ses produits Search, Ads, Chrome et Duet AI avec Gemini Pro, comme Gmail, Google Docs, et plus encore dans les prochains mois.
« Les livres de Penguin Random House disent maintenant explicitement ‘non’ à la formation IA »
‘Écrit par Emma Roth, dont le portfolio couvre aussi bien les percées technologiques grand public, les dynamiques de l’industrie du