Comment ce moteur de chatbot LLM open source a accéléré sur les processeurs x86 et Arm

Un outil open source pratique pour regrouper les LLMs en exécutables universels de chatbot uniques faciles à distribuer et à exécuter aurait apparemment bénéficié d’une augmentation de performance CPU de 30 à 500 pour cent sur les systèmes x86 et Arm. Le projet s’appelle llamafile, et a été créé par Justine Tunney avec le soutien de Mozilla. Il existe une tonne de modèles que vous pouvez télécharger et expérimenter sur votre propre système, comme nous l’avons déjà détaillé. En fin de compte, ces modèles ne sont que de très grands fichiers de nombres qui décrivent des réseaux neuronaux – vous devez avoir un logiciel qui peut ouvrir et interpréter un modèle, et savoir comment exécuter des invitations et des requêtes d’entrée à travers le réseau neuronal pour générer des sorties pour l’utilisateur. Un tel logiciel est llama.cpp – un programme C++ simple développé principalement par Georgi Gerganov. Bien que llama.cpp se soit fixé pour objectif de prendre en charge la série de modèles LLaMA de Meta – d’où le nom – il peut également gérer un grand nombre d’autres LLMs, tels que Mistral-7B et Orion-14B. Inspiré par le pilote LLaMA original basé sur Python de Meta, llama.cpp est assez cool car il n’a pas de dépendances, fonctionne sur Windows, Linux, macOS et FreeBSD, du moins, et peut bénéficier de l’accélération matérielle – des GPU Nvidia aux extensions Apple, Intel et AMD.

Share the Post: