Publié
12 décembre 2023
Par
Mojan Javaheripi
,
Chercheur principal
Sébastien Bubeck
,
Directeur de la recherche partenaire
Partager cette page Marah Abdin, Jyoti Aneja, Sébastien Bubeck, Caio César Teodoro Mendes, Weizhu Chen, Allie Del Giorno, Ronen Eldan, Sivakanth Gopi, Suriya Gunasekar, Mojan Javaheripi, Piero Kauffmann, Yin Tat Lee, Yuanzhi Li, Anh Nguyen, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Michael Santacroce, Harkirat Singh Behl, Adam Taumann Kalai, Xin Wang, Rachel Ward, Philipp Witte, Cyril Zhang, Yi Zhang Au cours des derniers mois, notre équipe de Machine Learning Foundations de Microsoft Research a publié une suite de petits modèles de langage (SLM) appelés «Phi» qui ont obtenu des résultats remarquables sur une variété de benchmarks. Notre premier modèle, Phi-1 de 1,3 milliard de paramètres (ouvert dans un nouvel onglet), a atteint les meilleures performances en matière de codage Python parmi les SLM existants (plus précisément sur les benchmarks HumanEval et MBPP). Nous avons ensuite étendu notre focus à la raisonnement commun et à la compréhension du langage et créé un nouveau modèle de 1,3 milliard de paramètres appelé Phi-1,5 (ouvert dans un nouvel onglet), avec des performances comparables à celles des modèles 5 fois plus importants.