Le test de Turing sur stéroïdes: Chatbot Arena crowdsources les notes pour 45 modèles d’IA

Les utilisateurs de Chatbot Arena peuvent entrer n’importe quelle suggestion qui leur vient à l’esprit dans le formulaire du site pour voir les réponses côte à côte de deux modèles sélectionnés au hasard. L’identité de chaque modèle est initialement cachée, et les résultats sont annulés si le modèle révèle son identité dans la réponse elle-même. L’utilisateur doit ensuite sélectionner le modèle qu’il juge fournir le « meilleur » résultat, avec des options supplémentaires pour un « match nul » ou « les deux sont mauvais ». Ce n’est qu’après avoir fourni une évaluation par paires que l’utilisateur peut voir quels modèles ils évaluaient, bien qu’une section séparée du site intitulée « côte à côte » permette aux utilisateurs de sélectionner deux modèles spécifiques à comparer (sans possibilité de contribuer à un vote sur le résultat). Depuis son lancement public en mai, LMSys affirme avoir recueilli plus de 130 000 évaluations par paires aveugles sur 45 modèles différents (au début décembre). Ces chiffres semblent sur le point de augmenter rapidement après une récente évaluation positive d’Andrej Karpathy d’OpenAI qui a déjà conduit ce que LMSys décrit comme « un test de stress super » pour ses serveurs. Les milliers de notes par paires de Chatbot Arena sont passées au crible d’un modèle Bradley-Terry, qui utilise un tirage au sort pour générer une estimation de type Elo indiquant quel modèle est le plus susceptible de gagner en compétition directe contre tout autre. Les parties intéressées peuvent également examiner les données brutes de dizaines de milliers d’évaluations humaines de demandes / réponses pour elles-mêmes ou examiner des statistiques plus détaillées, telles que les taux de victoire en paires directes entre les modèles et les plages d’intervalles de confiance pour ces estimations Elo.

Share the Post: