Phi-2: La surprenante puissance des petits modèles de langage

Publié

12 décembre 2023

Par

Mojan Javaheripi,
Chercheur principal

Sébastien Bubeck,
Directeur de la recherche partenaire

Partagez cette page
Marah Abdin, Jyoti Aneja, Sebastien Bubeck, Caio César Teodoro Mendes, Weizhu Chen, Allie Del Giorno, Ronen Eldan, Sivakanth Gopi, Suriya Gunasekar, Mojan Javaheripi, Piero Kauffmann, Yin Tat Lee, Yuanzhi Li, Anh Nguyen, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Michael Santacroce, Harkirat Singh Behl, Adam Taumann Kalai, Xin Wang, Rachel Ward, Philipp Witte, Cyril Zhang, Yi Zhang

Au cours des derniers mois, notre équipe de fondations d’apprentissage automatique de Microsoft Research a publié une suite de petits modèles de langage (SLM) appelés «Phi» qui ont obtenu des performances remarquables sur une variété d’indicateurs. Notre premier modèle, le paramètre Phi-1.3 milliards (s’ouvre dans un nouvel onglet), a atteint les meilleures performances en matière de codage Python parmi les SLM existants (plus précisément sur les indicateurs HumanEval et MBPP). Nous avons ensuite élargi notre focus sur la raisonnement du sens commun et la compréhension du langage et créé un nouveau modèle de 1,3 milliard de paramètres nommé Phi-1.5 (s’ouvre dans un nouvel onglet), avec des performances comparables à celles des modèles 5 fois plus importants.

Share the Post: