‘Meta, leader mondial dans le domaine de l’intelligence artificielle, a fait un saut impressionnant dans le développement de modèles de langage ouverts. L’entreprise a été impressionnante dans ses efforts pour faire progresser l’IA grâce à l’introduction des modèles Llama. Ces modèles d’IA redoutables ont offert d’incroyables capacités d’interaction basées sur le texte. Cependant, dans une mise à jour passionnante du siège de Meta, l’entreprise a annoncé le lancement de ses modèles multimodaux qui dote son Llama 3 de la capacité non seulement de lire mais aussi de voir.
Selon l’entreprise, le nouveau modèle Llama peut désormais comprendre et traiter l’information en utilisant une combinaison d’images et de textes. Cela signifie que le modèle peut voir un graphique, une image ou un diagramme, et générer un texte ou des mots-clés pertinents par rapport à celui-ci. Il peut également être utilisé pour extraire des informations vitales d’une diapositive PowerPoint et la convertir en texte utile.
Le modèle Llama multimodal reste librement disponible et il n’est pas limité au cloud ; il peut également être exécuté sur des machines locales. Plus intéressant encore, ce modèle peut être interrogé sur le contenu affiché dans une image ou faire des demandes spécifiques à propos de ce contenu.
Cependant, il convient de noter que bien que ces modèles soient très innovants et impressionnants, ils ont encore besoin de réglages pour améliorer leur capacité à comprendre et à répondre avec précision. Tirant une comparaison parallèle avec l’Épouvantail du Magicien d’Oz, ces modèles – bien qu’impressionnants – pourraient utiliser un peu plus de ‘matière grise’. Mais tout comme l’épouvantail a finalement découvert sa sagesse, nous sommes optimistes qu’avec le temps et les améliorations, les modèles Llama optimiseront pleinement leurs capacités.’