Phi-2 : Le pouvoir surprenant des petits modèles de langage.

Publié
12 décembre 2023

Par

Mojan Javaheripi,

Chercheur Principal

Sébastien Bubeck,

Directeur de Recherche Partenaire

Partagez cette page Marah Abdin, Jyoti Aneja, Sébastien Bubeck, Caio César Teodoro Mendes, Weizhu Chen, Allie Del Giorno, Ronen Eldan, Sivakanth Gopi, Suriya Gunasekar, Mojan Javaheripi, Piero Kauffmann, Yin Tat Lee, Yuanzhi Li, Anh Nguyen, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Michael Santacroce, Harkirat Singh Behl, Adam Taumann Kalai, Xin Wang, Rachel Ward, Philipp Witte, Cyril Zhang, Yi Zhang Au cours des derniers mois, notre équipe des Fondements de l’Apprentissage Automatique chez Microsoft Research a publié une série de petits modèles de langage (SLM) appelés « Phi » qui obtiennent des performances remarquables sur une variété de références. Notre premier modèle, le modèle Phi-1.3 d’1,3 milliard de paramètres (ouvre dans un nouvel onglet), a obtenu des performances de pointe en matière de codage Python parmi les SLM existants (en particulier sur les références HumanEval et MBPP). Nous avons ensuite étendu notre attention à la raisonnement du bon sens et à la compréhension du langage et avons créé un nouveau modèle d’1,3 milliard de paramètres appelé Phi-1.5 (ouvre dans un nouvel onglet), avec des performances comparables à des modèles cinq fois plus grands.

Share the Post: