L'introduction de la vision dans l'API de fine-tuning
L'introduction de la vision dans l'API de fine-tuning
Aujourd'hui, nous annonçons une nouvelle fonctionnalité révolutionnaire : le fine-tuning visuel sur GPT-4o. Cette mise à jour permet désormais aux développeurs d'affiner le modèle non seulement avec du texte, mais aussi avec des images. Cela ouvre la voie à des applications plus puissantes comme la recherche visuelle avancée, la détection d'objets pour les véhicules autonomes ou encore l'analyse d'images médicales plus précise. Cette évolution répond à la demande croissante d'une meilleure compréhension des images par les modèles d'IA, en complément des capacités textuelles.
Le fine-tuning visuel suit le même processus que le fine-tuning textuel. Les développeurs peuvent préparer leurs ensembles de données d'images, les télécharger sur la plateforme et entraîner le modèle pour améliorer ses performances. Avec seulement 100 images, il est possible d’obtenir des résultats significatifs, et des volumes plus importants combinant texte et images peuvent encore améliorer les performances du modèle. Cette fonctionnalité a déjà été testée par plusieurs partenaires, comme Grab et Automat, avec des résultats impressionnants.
Par exemple, Grab, une société de livraison et de covoiturage, a utilisé le fine-tuning visuel pour améliorer la précision de la détection des panneaux de signalisation sur ses cartes. Grâce à seulement 100 exemples, Grab a augmenté la précision du comptage des voies de 20 % et la localisation des panneaux de vitesse de 13 %. De son côté, Automat, une entreprise d'automatisation, a utilisé cette technologie pour améliorer la détection d'éléments d'interface utilisateur avec une augmentation de 272 % du taux de réussite de ses agents RPA.
Enfin, Coframe, une entreprise spécialisée dans l'ingénierie de croissance assistée par IA, a utilisé le fine-tuning visuel pour générer du code de sites web avec un style visuel cohérent. En affinant GPT-4o avec des images et du code, Coframe a amélioré de 26 % la capacité du modèle à générer des sites web avec une mise en page correcte par rapport au modèle de base. Ces exemples démontrent le potentiel du fine-tuning visuel pour améliorer des tâches complexes nécessitant une compréhension approfondie des images et du texte.