Google a présenté Gemini, sa nouvelle génération de modèles fondés sur les transformateurs, les plus puissants à ce jour. Ils sont capables de traiter du texte, des images, de l’audio et des vidéos. Gemini est un modèle multimodal avec une fenêtre contextuelle de 32 000 mots qui peut prendre divers types de données en entrée et générer des images et du texte en sortie, et se décline en trois tailles différentes. Le plus grand, Gemini Ultra, est la version la plus puissante, conçue pour des tâches complexes nécessitant un « raisonnement » ou le traitement de plusieurs types de données. Gemini Pro est le modèle de taille moyenne, optimisé pour fonctionner de manière plus efficace et effectuer une gamme plus large de tâches. Le plus petit Gemini Nano est divisé en deux : le Nano-1 compte 1,8 milliard de paramètres et le Nano-2, 3,25 milliards de paramètres. Ils sont conçus pour fonctionner sur de petits appareils. Google n’a pas révélé le nombre de paramètres de ses modèles Gemini Pro et Gemini Ultra plus puissants. Gemini sert-il à quelque chose ? A partir d’aujourd’hui, son chatbot AI Bard a été mis à jour pour fonctionner avec Gemini Pro, ce qui signifie qu’il devrait mieux comprendre et résumer un texte que sa version précédente alimentée par le modèle de langue PaLM 2 de Google. Les fonctionnalités multimodales ne sont cependant pas tout à fait prêtes et la version Gemini Pro de Bard ne peut traiter et générer que du texte, et ne prend en charge que l’anglais pour le moment. Google prévoit également de revoir certains de ses produits Search, Ads, Chrome et Duet AI avec Gemini Pro, comme Gmail, Google Docs, et plus encore dans les prochains mois.
« Les livres de Penguin Random House disent maintenant explicitement ‘non’ à la formation IA »
‘Écrit par Emma Roth, dont le portfolio couvre aussi bien les percées technologiques grand public, les dynamiques de l’industrie du