Mercredi, Google a annoncé Gemini, une famille de modèles de IA multimodaux qu’elle espère rivaliser avec OpenAI GPT-4, qui alimente la version payante de ChatGPT. Google affirme que la plus grande version de Gemini dépasse les « résultats de pointe actuels sur 30 des 32 critères académiques largement utilisés utilisés dans les recherches et le développement de modèles de langue larges (LLM) ». C’est une suite à PaLM 2, un modèle de IA plus ancien que Google espérait pouvoir égaler GPT-4 en termes de fonctionnalités. Une version anglaise spécialement ajustée de son modèle Gemini de niveau moyen est désormais disponible dans plus de 170 pays en tant que partie du chatbot Google Bard, bien que pas dans l’UE ou le Royaume-Uni en raison de potentiels problèmes de réglementation. Comme GPT-4, Gemini peut gérer plusieurs types (ou « modes ») d’entrée, ce qui le rend multimodal. Cela signifie qu’il peut traiter du texte, du code, des images et même de l’audio. L’objectif est de créer un type d’intelligence artificielle capable de résoudre avec précision des problèmes, de donner des conseils et de répondre à des questions dans divers domaines, du banal au scientifique. Google affirme que cela alimentera une nouvelle ère dans l’informatique, et elle espère intégrer étroitement la technologie dans ses produits. « Les capacités de raisonnement multimodal sophistiquées de Gemini 1.0 peuvent aider à comprendre des informations écrites et visuelles complexes », écrit Google. « Sa remarquable capacité à extraire des insights de centaines de milliers de documents en lisant, en filtrant et en comprenant des informations permettra de réaliser de nouvelles percées à des vitesses numériques dans de nombreux domaines, de la science aux finances. » Google affirme que Gemini sera disponible en trois tailles: Gemini Ultra (« pour des tâches très complexes »), Gemini Pro (« pour un scaling large éventail de tâches ») et Gemini Nano (« pour les tâches locales sur les appareils » comme le smartphone Google Pixel 8 Pro). Chacun est probablement séparé en complexité par le nombre de paramètres. Plus de paramètres signifie une plus grande réseau de neurones qui est généralement plus capable d’exécuter des tâches plus complexes mais nécessite plus de puissance de calcul pour fonctionner. Cela signifie que Nano, le plus petit, est conçu pour fonctionner localement sur les appareils des consommateurs, tandis que Ultra ne peut fonctionner que sur du matériel de centre de données.
« Les livres de Penguin Random House disent maintenant explicitement ‘non’ à la formation IA »
‘Écrit par Emma Roth, dont le portfolio couvre aussi bien les percées technologiques grand public, les dynamiques de l’industrie du