Phi-2 : La puissance surprenante des petits modèles de langage

Publié
le 12 décembre 2023

Par

Mojan Javaheripi,
Chercheur principal,

Sébastien Bubeck,
Responsable de recherche partenaire

Partager cette page avec Marah Abdin, Jyoti Aneja, Sebastien Bubeck, Caio César Teodoro Mendes, Weizhu Chen, Allie Del Giorno, Ronen Eldan, Sivakanth Gopi, Suriya Gunasekar, Mojan Javaheripi, Piero Kauffmann, Yin Tat Lee, Yuanzhi Li, Anh Nguyen, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Michael Santacroce, Harkirat Singh Behl, Adam Taumann Kalai, Xin Wang, Rachel Ward, Philipp Witte, Cyril Zhang, Yi Zhang.

Au cours des derniers mois, notre équipe de Fondations de l’apprentissage automatique chez Microsoft Research a publié une série de petits modèles de langage (SLM) appelés « Phi » qui ont obtenu des performances remarquables sur différentes évaluations. Notre premier modèle, le Phi-1 avec 1,3 milliard de paramètres (ouvre dans un nouvel onglet), a atteint des performances de pointe en matière de codage Python parmi les SLM existants (notamment sur les évaluations HumanEval et MBPP). Nous avons ensuite étendu notre attention au raisonnement de bon sens et à la compréhension du langage, et nous avons créé un nouveau modèle, le Phi-1.5 avec 1,3 milliard de paramètres (ouvre dans un nouvel onglet), dont les performances sont comparables à celles de modèles cinq fois plus grands.

Share the Post: