Demis Hassabis de Google DeepMind affirme que Gemini est une nouvelle race d’IA.

Demis Hassabis n’a jamais eu peur de déclamer de grands sauts en avant en intelligence artificielle. En 2016, il est devenu célèbre après qu’un bot nommé AlphaGo s’est enseigné à jouer au jeu de plateau complexe et subtil Go avec une habileté et une ingéniosité surhumaines. Aujourd’hui, Hassabis dit que son équipe chez Google a fait un plus grand pas en avant – pour lui, l’entreprise et, espérons-le, le domaine plus large de l’IA. Gemini, le modèle IA annoncé aujourd’hui par Google, dit-il, ouvre un nouveau chemin inexploré en IA qui pourrait mener à de nouvelles percées importantes. «En tant que neuroscientifique et informaticien, j’ai voulu depuis des années créer une nouvelle génération de modèles IA inspirés de la manière dont nous interagissons et comprenons le monde, à travers tous nos sens», a déclaré Hassabis à WIRED avant l’annonce d’aujourd’hui. Gemini est «un grand pas vers ce genre de modèle», dit-il. Google décrit Gemini comme «multimodal» car il peut traiter des informations sous forme de texte, audio, images et vidéo. Une version initiale de Gemini sera disponible via le chatbot Bard de Google à partir d’aujourd’hui. La société dit que la version la plus puissante du modèle, Gemini Ultra, sera lancée l’année prochaine et surpasse GPT-4, le modèle derrière ChatGPT, sur plusieurs mesures communes. Les vidéos publiées par Google montrent Gemini résolvant des tâches impliquant une raisonnement complexe, ainsi que des exemples du modèle combinant des informations provenant de texte images, audio et vidéo. «Jusqu’à présent, la plupart des modèles ont approximativement approximé la multimodalité en entraînant des modules séparés puis en les assemblant», dit Hassabis, ce qui semble être une allusion voilée à la technologie d’OpenAI. «C’est bien pour certaines tâches, mais vous ne pouvez pas avoir ce genre de raisonnement complexe profond dans l’espace multimodal.

Share the Post: