Google lance le modèle Gemini 1.5 Pro pour défier ses concurrents.

Google a introduit jeudi Gemini 1.5, une famille de modèles multi-modaux permettant l’interaction texte, image et audio, qui selon eux rivalise avec les meilleurs modèles dans les bancs d’essai. Gemini 1.5 Pro, le premier membre de la famille de modèles, se comporte de manière comparable au modèle Ultra 1.0 du géant du web, qui a été lancé la semaine dernière, mais utilise moins de ressources informatiques, selon la Chocolate Factory. Demis Hassabis, PDG de Google DeepMind, a déclaré que Gemini 1.5 Pro était plus efficace à entraîner et à servir grâce à son architecture Mixture-of-Experts (MoE). Plutôt que de combiner de manière complexe des modèles uniquement basés sur le texte, l’image ou l’audio à un stade secondaire, l’architecture MoE intègre dès le départ les modes texte, image et audio. Le dernier modèle d’IA de Google surpasse apparemment les modèles concurrents dans les tests de référence, en fonction du nombre de jetons qu’il peut accepter dans une demande d’entrée – un jeton représentant environ quatre caractères en anglais. Sur le plan pratique, Gemini 1.5 peut prendre en charge du texte, du code, des images, de l’audio et de la vidéo, et répondre aux questions en langage naturel sur ce matériel ainsi que générer ce type de contenu. « Gemini 1.5 Pro atteint une récupération presque parfaite dans les tâches de recherche de long contexte dans plusieurs modalités, améliore l’état de l’art dans l’interrogation de longs documents, l’interrogation de longues vidéos et l’ASR de long contexte, et égale ou surpasse les performances de l’état de l’art de Gemini 1.0 Ultra dans un large ensemble de tests de référence », ont écrit les chercheurs de Google dans un document technique sur Gemini 1.5 Pro. [PDF]

Share the Post: