GPT-4 devient plus rapide 🐇

Au cours des derniers mois, nous avons observé avec attention les délais d’exécution pour GPT 3.5 et 4. Les modèles émergents étaient intrigants. La principale observation? GPT-4 rattrape son retard en termes de vitesse, réduisant l’écart de latence avec GPT 3.5. Nos résultats révèlent une baisse constante de la latence de GPT-4. Bien que vos résultats puissent varier en fonction des invite spécifiques, la tendance générale est claire, comme le montre le graphique suivant présentant les requêtes médianes sur une période de trois mois. Mais quels sont les facteurs qui contribuent à la latence? Voyons ça de plus près: il est à noter qu’un grand nombre de jetons ne signifie pas toujours une réponse plus lente. Par exemple, une invite avec 204 jetons, malgré sa simplicité, peut être traitée en 4,5 secondes. D’un autre côté, une invite de 33 jetons, si elle est complexe, peut prendre jusqu’à 32 secondes pour être traitée.

Share the Post: