« Meta donne à Llama 3 vision, mais s’il avait seulement un cerveau. »

Les mains sur Meta ont été influentes pour promouvoir le développement de modèles linguistiques ouverts avec sa famille Llama, mais jusqu’à présent, la seule façon d’interagir avec eux a été par le biais du texte. Avec le lancement de ses modèles multimodaux fin du mois dernier, la maison mère de Facebook a donné à Llama 3 une vision. Selon Meta, ces modèles peuvent maintenant utiliser une combinaison d’images et de textes pour « comprendre profondément et raisonner sur la combinaison ». Par exemple, les modèles de vision pourraient être utilisés pour générer des mots-clés appropriés basés sur le contenu d’une image, d’un graphique ou d’une diapositive PowerPoint, ou extraire des informations d’une diapositive PowerPoint. Vous pouvez poser des questions à ce modèle disponible en open source, qui peut être exécuté localement non seulement dans le cloud, pas seulement ce qu’il y a dans une image, mais poser des questions ou faire une demande concernant ce contenu. Cela dit, dans nos tests, nous avons constaté que, tout comme l’épouvantail dans le Magicien d’Oz, ce dont ce modèle aurait vraiment besoin est un cerveau.

Share the Post: