Les LLMs continuent de sauter avec Llama 3, le tout dernier modèle d’IA open-weights de Meta.

Jeudi, Meta a dévoilé les premières versions de son modèle d’intelligence artificielle à poids ouverts Llama 3 qui peut être utilisé pour alimenter la composition de texte, la génération de code ou les chatbots. Il a également annoncé que son assistant d’IA Meta est désormais disponible sur un site web et va être intégré dans ses principales applications de médias sociaux, intensifiant les efforts de l’entreprise pour positionner ses produits contre d’autres assistants AI comme ChatGPT d’OpenAI, Copilot de Microsoft et Gemini de Google. Comme son prédécesseur, Llama 2, Llama 3 se distingue par le fait d’être un modèle de langage de grande taille (LLM) à poids ouverts et disponible gratuitement fourni par une grande entreprise d’IA. Llama 3 ne qualifie techniquement pas comme étant « open source » car ce terme a un sens spécifique dans le domaine des logiciels, et l’industrie n’a pas encore arrêté de terminologie pour les sorties de modèles AI qui fournissent soit du code ou des paramètres avec des restrictions (vous pouvez lire la licence de Llama 3 ici) ou qui ne fournissent pas de données d’entraînement. Nous appelons généralement ces sorties « open weights » à la place. À l’heure actuelle, Llama 3 est disponible en deux tailles de paramètres : 8 milliards (8B) et 70 milliards (70B), tous deux disponibles en téléchargement gratuit via le site web de Meta avec une inscription. Llama 3 se décline en deux versions : pré-entraînée (essentiellement le modèle brut de prédiction du prochain token) et ajustée aux instructions (affinée pour suivre les instructions de l’utilisateur). Chacune a une limite de contexte de 8 192 tokens. Meta a entraîné les deux modèles sur deux clusters de 24 000 GPU sur mesure. Dans une interview de podcast avec Dwarkesh Patel, le PDG de Meta, Mark Zuckerberg, a déclaré que l’entreprise avait entraîné le modèle 70B avec environ 15 billions de tokens de données. Tout au long du processus, le modèle n’a jamais atteint la « saturation » (c’est-à-dire qu’il n’a jamais atteint un plafond en termes d’améliorations de capacité). Finalement, Meta a débranché et est passé à l’entraînement d’autres modèles. « Je suppose que notre prédiction initiale était qu’il allait asymptoter davantage, mais même à la fin, il penchait encore. Nous aurions probablement pu lui donner plus de tokens, et il aurait été légèrement meilleur », a déclaré Zuckerberg dans le podcast.

Share the Post: