Les mains sur Meta ont été influentes pour promouvoir le développement de modèles linguistiques ouverts avec sa famille Llama, mais jusqu’à présent, la seule façon d’interagir avec eux a été par le biais du texte. Avec le lancement de ses modèles multimodaux fin du mois dernier, la maison mère de Facebook a donné à Llama 3 une vision. Selon Meta, ces modèles peuvent maintenant utiliser une combinaison d’images et de textes pour « comprendre profondément et raisonner sur la combinaison ». Par exemple, les modèles de vision pourraient être utilisés pour générer des mots-clés appropriés basés sur le contenu d’une image, d’un graphique ou d’une diapositive PowerPoint, ou extraire des informations d’une diapositive PowerPoint. Vous pouvez poser des questions à ce modèle disponible en open source, qui peut être exécuté localement non seulement dans le cloud, pas seulement ce qu’il y a dans une image, mais poser des questions ou faire une demande concernant ce contenu. Cela dit, dans nos tests, nous avons constaté que, tout comme l’épouvantail dans le Magicien d’Oz, ce dont ce modèle aurait vraiment besoin est un cerveau.
Trump suspend son décret sur l’IA, Nvidia vise 200 milliards et l’Europe place l’éducation au cœur de la révolution IA
Le président Trump reporte un décret majeur sur l’IA par crainte de freiner l’innovation, Nvidia dévoile le CPU Vera pour un marché de 200 milliards de dollars, Lenovo explose grâce à l’IA (+84%), et le Conseil de l’UE adopte des conclusions historiques sur l’IA dans l’éducation. Décryptage par Netz Informatique.