« Le roi est mort » – Claude 3 dépasse GPT-4 sur l’arène des chatbots pour la première fois.

Le mardi, le modèle de langage de grande taille Claude 3 Opus d’Anthropic a surpassé pour la première fois le GPT-4 d’OpenAI (qui alimente ChatGPT) sur Chatbot Arena, un leaderboard crowdsourcé populaire utilisé par les chercheurs en intelligence artificielle pour évaluer les capacités relatives des modèles de langage IA. « Le roi est mort », a tweeté le développeur de logiciels Nick Dobos dans un post comparant le GPT-4 Turbo et le Claude 3 Opus qui fait le tour des réseaux sociaux. « RIP GPT-4. » Depuis que le GPT-4 a été inclus dans Chatbot Arena vers le 10 mai 2023 (le leaderboard a été lancé le 3 mai de cette année-là), des variations du GPT-4 ont régulièrement été en tête du classement jusqu’à présent, donc sa défaite dans l’Arena est un moment notable dans l’histoire relativement courte des modèles de langage IA. Un des modèles plus petits d’Anthropic, Haiku, a également attiré l’attention par ses performances sur le leaderboard. « Pour la première fois, les meilleurs modèles disponibles – Opus pour les tâches avancées, Haiku pour le coût et l’efficacité – proviennent d’un fournisseur qui n’est pas OpenAI », a déclaré Simon Willison, chercheur IA indépendant, à Ars Technica. « C’est rassurant – nous bénéficions tous d’une diversité de principaux fournisseurs dans cet espace. Mais le GPT-4 a maintenant plus d’un an, et il a fallu cette année à quelqu’un d’autre pour rattraper son retard. » Chatbot Arena est géré par Large Model Systems Organization (LMSYS ORG), une organisation de recherche dédiée aux modèles ouverts qui fonctionne en collaboration entre les étudiants et le corps professoral de l’Université de Californie, à Berkeley, UC San Diego, et l’Université Carnegie Mellon. Nous avons expliqué le fonctionnement du site en décembre, mais en bref, Chatbot Arena présente à un utilisateur visitant le site une boîte de chat et deux fenêtres affichant la sortie de deux LLM non étiquetés. La tâche de l’utilisateur est de noter quelle sortie est meilleure en fonction des critères que l’utilisateur juge les plus appropriés. À travers des milliers de ces comparaisons subjectives, Chatbot Arena calcule les « meilleurs » modèles en agrégat et alimente le classement, en le mettant à jour au fil du temps.

Share the Post: