Meta donne à Llama une vision 3D, si seulement il avait un cerveau.

« Hands on Meta a été influent dans le développement de modèles de langage ouverts avec sa famille Llama, mais jusqu’à présent, la seule façon d’interagir avec eux a été à travers du texte. Avec le lancement de ses modèles multimodaux le mois dernier, la société mère Facebook a donné à Llama 3 la vue. Selon Meta, ces modèles peuvent désormais utiliser une combinaison d’images et de prompts textuels pour « comprendre profondément et raisonner sur la combinaison ». Par exemple, les modèles de vision pourraient être utilisés pour générer des mots-clés appropriés basés sur le contenu d’une image, d’un graphique ou d’une diapositive PowerPoint, ou extraire des informations d’une diapositive PowerPoint. Vous pouvez poser des questions ou faire une demande à ce modèle disponible gratuitement, qui peut être exécuté localement non seulement dans le cloud, sur ce qui se trouve dans une image, mais également poser des questions ou faire une demande sur ce contenu. Cela dit, dans nos tests, nous avons constaté que, tout comme l’épouvantail du Magicien d’Oz, ce dont ce modèle aurait vraiment besoin est un cerveau. »

Share the Post: