Introduction du Prompt Caching : réduction des coûts et amélioration de la latence
Introduction du Prompt Caching : réduction des coûts et amélioration de la latence
Le Prompt Caching permet aux développeurs de réutiliser les données des API déjà traitées, réduisant ainsi les coûts et les temps de traitement. Les développeurs bénéficient d'une réduction de 50 % sur les prompts déjà vus, ce qui améliore la performance des applications IA.
Tarification et disponibilité du Prompt Caching
Les modèles GPT-4o, GPT-4o mini et o1 appliquent automatiquement le Prompt Caching à partir de 1 024 tokens. Cela entraîne une réduction de coût significative pour les utilisateurs d'API.
Surveillance de l'utilisation du cache
L'API enregistre les tokens mis en cache dans le champ usage
, permettant aux développeurs de suivre leur utilisation et de contrôler les coûts.
Avantages pour les développeurs
En automatisant le Prompt Caching, OpenAI offre une solution plus efficace pour les développeurs, leur permettant de concilier performance, coût et rapidité.