‘Tout ce que vous devez savoir pour commencer à affiner les LLMs dans l’intimité de votre maison’

‘Les modèles de langage de grande taille (LLMs) démontrent des capacités étonnantes dans la création de texte et la synthèse de connaissances, cependant, leur production dépend de leurs données d’entraînement. Si un utilisateur pose des questions sur une tâche ou une procédure spécifique à une organisation, le modèle échouera soit à répondre, soit peut générer une réponse non fiable mais plausible. Pour contourner cela, on pourrait envisager de former un modèle personnel, mais les coûts et les ressources nécessaires pourraient être élevés. Pour mettre les choses en perspective, le modèle Llama 3 8B de Meta a nécessité jusqu’à 1,3 million d’heures de GPU, exploitant des Nvidia H100s de 80GB.

Cependant, il y a une lueur d’espoir: au lieu de créer un nouveau modèle, des modèles existants comme Llama, Mistral, ou Phi peuvent être adaptés pour assimiler de nouvelles informations ou même modifier leurs performances et leur style grâce au processus de fine-tuning. Bien que cette procédure soit plus gourmande en ressources par rapport à l’inférence, des avancées récentes comme l’Adaptation de Rang Bas (LoRA) et sa version quantifiée QLoRA rendent possible le fine-tuning de modèles avec un GPU autonome. Ce guide se penchera sur la façon dont cela peut être réalisé.

Dans cet article, nous allons approfondir :’

Share the Post: