Google a dévoilé Gemini, sa classe la plus puissante de modèles basés sur les transformeurs, capables de traiter du texte, des images, de l’audio et de la vidéo. Gemini est un modèle multimodal avec une fenêtre de contexte de 32 000 caractères qui peut prendre différents types de données en entrée et générer des images et du texte en sortie, et se décline en trois tailles différentes. Le plus grand, Gemini Ultra, est la version la plus puissante conçue pour des tâches complexes nécessitant une « raisonnement » ou le traitement de plusieurs types de données. Gemini Pro est le modèle de taille moyenne qui a été optimisé pour fonctionner plus efficacement et effectuer une gamme plus large de tâches. Le plus petit Gemini Nano est divisé en deux, Nano-1 a 1,8 milliard de paramètres, et Nano-2 a 3,25 milliards de paramètres et est conçu pour fonctionner sur de petits appareils. Google n’a pas révélé combien de paramètres contiennent ses modèles Gemini Pro et Gemini Ultra plus puissants. Alors, à quoi sert Google Gemini? A partir d’aujourd’hui, son chatbot AI Bard a été mis à jour pour fonctionner avec Gemini Pro, ce qui signifie qu’il devrait mieux comprendre et résumer le texte que sa version précédente alimentée par le langage PaLM 2 de Google. Les capacités multimodales ne sont cependant pas tout à fait prêtes et la version Gemini-Pro de Bard ne peut traiter et générer que du texte, et ne prend en charge que l’anglais pour l’instant. Google prévoit également de moderniser certains de ses produits Search, Ads, Chrome et Duet AI avec Gemini Pro, comme Gmail, Google Docs, et plus encore dans les prochains mois.
« Les livres de Penguin Random House disent maintenant explicitement ‘non’ à la formation IA »
‘Écrit par Emma Roth, dont le portfolio couvre aussi bien les percées technologiques grand public, les dynamiques de l’industrie du