« Hands on Meta a été influent dans le développement de modèles de langage ouverts avec sa famille Llama, mais jusqu’à présent, la seule façon d’interagir avec eux a été à travers du texte. Avec le lancement de ses modèles multimodaux le mois dernier, la société mère Facebook a donné à Llama 3 la vue. Selon Meta, ces modèles peuvent désormais utiliser une combinaison d’images et de prompts textuels pour « comprendre profondément et raisonner sur la combinaison ». Par exemple, les modèles de vision pourraient être utilisés pour générer des mots-clés appropriés basés sur le contenu d’une image, d’un graphique ou d’une diapositive PowerPoint, ou extraire des informations d’une diapositive PowerPoint. Vous pouvez poser des questions ou faire une demande à ce modèle disponible gratuitement, qui peut être exécuté localement non seulement dans le cloud, sur ce qui se trouve dans une image, mais également poser des questions ou faire une demande sur ce contenu. Cela dit, dans nos tests, nous avons constaté que, tout comme l’épouvantail du Magicien d’Oz, ce dont ce modèle aurait vraiment besoin est un cerveau. »
Équilibrer la Numérisation et la Sobriété Numérique dans la Formation Professionnelle : Solutions Actuelles et Besoins Émergents
La formation professionnelle tout au long de la vie (FTLV) connaît une transformation significative dans le contexte actuel de numérisation