GPT-4, le dernier modèle d'IA de OpenAI, se rapproche de la vitesse de GPT-3.5, son prédécesseur. Une étude récente a révélé que la latence médiane de GPT-4 est restée constante au cours des trois derniers mois, restant inférieure à 1 ms par jeton. Cependant, la latence au 99e percentile a plus que diminué de moitié au cours de la même période. Cela signifie que la majorité des requêtes sont désormais traitées par GPT-4 plus rapidement que par GPT-3.5.
Les facteurs qui contribuent à la latence sont le temps de trajet aller-retour, le temps de mise en file d'attente et le temps de traitement. Le temps de traitement peut varier considérablement en fonction de la complexité et de la longueur de l'invite. Il est à noter qu'un nombre élevé de jetons ne se traduit pas toujours par une réponse plus lente. Par exemple, une invite de 204 jetons, bien qu'elle soit simple, peut recevoir une réponse en seulement 4,5 secondes. En revanche, une invite de 33 jetons, si elle est complexe, peut prendre jusqu'à 32 secondes à traiter.
Malgré son coût plus élevé, GPT-4 n'est plus plus lent que GPT-3.5 pour la majorité des requêtes.
OpenAI explore également une autre question intrigante : la latence augmente-t-elle lorsque l'utilisateur approche de ses limites de débit ? En d'autres termes, OpenAI ralentit-il délibérément les utilisateurs ? Les résultats de cette étude seront publiés dans un prochain article.