Qu’est-ce que Gemini? Modèle de l’IA de Google et GPT-4 expliqués

Il semble que nous soyons en plein cœur de la deuxième ère où tout ce qui est technologie populaire doit comporter de l’intelligence artificielle. Il y a à peine une dizaine d’années, des éléments d’apprentissage automatique ont fait leur chemin vers de petits trucs comme l’identification de sujets dans la vision d’une caméra ou la création de phrases qui peuvent être utiles ou non. Maintenant, alors que nous nous approchons d’un pic de l’IA générative (avec peut-être davantage à venir), Google augmente les enjeux avec son nouveau modèle « multimodal » appelé Gemini. Si vous vous demandez ce qui fait fonctionner Gemini, pourquoi il est si différent des ChatGPT d’OpenAI et comment vous pourriez avoir l’occasion de le mettre en œuvre au travail, nous sommes là pour vous donner un aperçu de la situation. Google a présenté Gemini le 6 décembre 2023 en tant que son dernier modèle d’IA générative « multimodal » tout-terrain. Il est disponible en trois tailles – Ultra, qui est maintenu en dehors de l’usage commercial plus large pour le moment, Pro et Nano. Jusqu’à présent, les grands modèles de langage largement disponibles ou LLM fonctionnaient en analysant les médias d’entrée afin de développer le sujet dans un format de média souhaité. Par exemple, le modèle GPT (Generative Pre-trained Transformer) d’OpenAI traite des échanges de texte à texte tandis que DALL-E traduit des invitations en texte en images. Chaque LLM serait accordé pour un type d’entrée et un type de sortie. C’est là que tout ce discours sur la multimodalité intervient : Gemini peut prendre en entrée du texte (y compris du code), des images, des vidéos et du son et, avec quelques sollicitations, produire quelque chose de nouveau dans l’un de ces formats. En d’autres termes, un LLM multimodal peut théoriquement effectuer les tâches de plusieurs LLM dédiés à un seul but. Ce bande-annonce vous donne une bonne idée de la façon dont les interactions avec un modèle équipé de façon décente sont polies. Ne laissez pas la vidéo et son montage élaboré vous tromper, cependant, car aucune de ces interactions ne se produit aussi rapidement que vous ne le voyez se produire ici. Vous pouvez en apprendre davantage sur le processus méticuleux que Google a suivi pour concevoir ses invitations dans un article de blog Google pour les développeurs. Cela dit, vous avez bien sûr un aperçu du niveau de détail et de la logique que Gemini est en mesure d’apporter dans ce à quoi il est assigné. J’ai personnellement été le plus impressionné par Gemini pouvant voir une image de points à relier non tracée et ensuite déterminer correctement qu’il s’agit d’un crabe (4:20). Gemini a également été invité à créer un jeu basé sur des emojis où il recevrait et jugerait les réponses en fonction de l’endroit où un utilisateur pointerait sur une carte (2 :05). Vous ne vous approchez généralement pas d’un LLM et ne lui demandez pas d’écrire Shakespeare pour vous et c’est la même chose pour Gemini. Au lieu de cela, vous le trouverez au travail sur une variété de surfaces. Dans ce cas, Google affirme qu’il utilise Gemini pour alimenter son expérience de recherche générative ainsi que l’application expérimentale NotebookLM. Le chatbot Bard de Google est maintenant exécuté avec Gemini Pro. Le chatbot Bard de Google est maintenant exécuté avec Gemini Pro – disponible dans plus de 170 pays et régions, mais uniquement en anglais américain – avec une progression vers Gemini Ultra au début de l’année prochaine. Les utilisateurs d’Android peuvent également profiter de certaines fonctionnalités améliorées avec Gemini Nano, qui est conçu pour être chargé directement sur les appareils. Les propriétaires de Pixel 8 Pro seront les premiers à en bénéficier, suivis de loin par ceux qui utilisent d’autres appareils sous Android 14. Les développeurs d’applications tierces pourront également profiter de Gemini dans Google AI Studio et Google Cloud Vertex AI à partir du 13 décembre. OpenAI a battu Google sur le coup avec le lancement du GPT-4 nominalement multimodal avec GPT-4V (le ‘V’ est pour vision) en mars 2023, puis l’a mis à jour avec GPT-4 Turbo en novembre. GPT reste conservateur dans son approche en tant que transformateur axé sur le texte, mais il accepte maintenant les images en entrée. Les benchmarks ne sont pas le facteur ultime en matière de jugement des performances d’un LLM, mais les nombres dans les tableaux sont ce que les chercheurs vivent en quelque sorte, nous allons donc les divertir un peu. La division de recherche DeepMind de Google affir

Share the Post: