Phi-2 : Le pouvoir surprenant des petits modèles de langage.

Publié le
12 décembre 2023

Par
Mojan Javaheripi,
Chercheur principal,
Sébastien Bubeck,
Directeur de recherche associé

Partager cette page: Marah Abdin, Jyoti Aneja, Sebastien Bubeck, Caio César Teodoro Mendes, Weizhu Chen, Allie Del Giorno, Ronen Eldan, Sivakanth Gopi, Suriya Gunasekar, Mojan Javaheripi, Piero Kauffmann, Yin Tat Lee, Yuanzhi Li, Anh Nguyen, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Michael Santacroce, Harkirat Singh Behl, Adam Taumann Kalai, Xin Wang, Rachel Ward, Philipp Witte, Cyril Zhang, Yi Zhang

Au cours des derniers mois, notre équipe des fondations de l’apprentissage automatique chez Microsoft Research a publié une suite de petits modèles de langage (SLM) appelée « Phi » qui obtiennent des performances remarquables sur une variété de benchmarks. Notre premier modèle, Phi-1 avec 1,3 milliard de paramètres (ouvre dans un nouvel onglet), a atteint des performances de pointe en matière de codage Python parmi les SLM existants (notamment sur les benchmarks HumanEval et MBPP). Nous avons ensuite étendu notre attention au raisonnement du bon sens et à la compréhension du langage et créé un nouveau modèle de 1,3 milliard de paramètres appelé Phi-1.5 (ouvre dans un nouvel onglet), dont les performances sont comparables à celles des modèles cinq fois plus grands.

Share the Post: