Au cours des derniers mois, nous avons été très attentifs aux temps de latence de GPT 3.5 et 4. Les modèles émergents étaient intrigants. La principale observation? GPT-4 rattrape son retard en vitesse, réduisant l’écart de latence avec GPT 3.5. Nos résultats révèlent une réduction constante de la latence de GPT-4. Bien que vos résultats puissent varier en fonction des invitees spécifiques, la tendance générale est claire, comme le montre le graphique suivant présentant les demandes médianes sur une période de trois mois. Mais quels sont les facteurs qui contribuent à la latence? Faisons le point: il est important de noter qu’un grand nombre de jetons ne signifie pas nécessairement une réponse plus lente. Par exemple, une invite avec 204 jetons, bien qu’elle soit simple, peut être traitée en 4,5 secondes. D’un autre côté, une invite de 33 jetons, si elle est complexe, peut prendre jusqu’à 32 secondes pour être traitée.
« Les livres de Penguin Random House disent maintenant explicitement ‘non’ à la formation IA »
‘Écrit par Emma Roth, dont le portfolio couvre aussi bien les percées technologiques grand public, les dynamiques de l’industrie du