Microsoft Dévoile Florence-2 : Un Modèle de Vision Unifié
Microsoft Dévoile Florence-2 : Un Modèle de Vision Unifié
Microsoft a présenté Florence-2, un modèle de fondation visionnaire révolutionnaire conçu pour gérer une large gamme de tâches de vision et de langage visuel. Ce modèle se distingue par une approche unifiée basée sur des prompts, lui permettant d'exécuter plusieurs tâches telles que la légende d'image, la détection d'objets, l'ancrage visuel et la segmentation avec une efficacité et une précision remarquables. Florence-2 exploite un jeu de données à grande échelle, FLD-5B, qui comprend 5,4 milliards d'annotations réparties sur 126 millions d'images, pour atteindre ses capacités polyvalentes .
L'architecture de Florence-2 intègre une structure séquence-à-séquence avec un encodeur de vision DaViT qui convertit les images en embeddings de tokens visuels. Ces embeddings sont combinés avec des embeddings de texte générés par BERT et traités via un encodeur-décodeur multi-modal basé sur des transformers. Cette configuration permet au modèle de comprendre et d'exécuter diverses tâches de vision à travers des prompts textuels, le rendant adaptable et puissant malgré sa taille compacte. Le modèle est disponible en deux versions, avec 232 millions et 771 millions de paramètres, lui permettant de surpasser de nombreux modèles plus grands dans des scénarios de zero-shot et de fine-tuning .
L'une des avancées significatives de Florence-2 est sa capacité à performer aussi bien ou mieux que des modèles spécialisés dans différentes tâches de vision. Par exemple, dans des tests de légende d'image zero-shot sur le jeu de données COCO, les deux versions de Florence-2 ont surpassé le modèle de langage visuel Flamingo de DeepMind et le modèle Kosmos-2 de Microsoft. Cette performance est attribuée aux annotations complètes et diversifiées du jeu de données FLD-5B, générées à l'aide d'une stratégie itérative d'annotation d'image automatisée et de raffinement de modèle .
La sortie de Florence-2 sous la licence permissive MIT sur des plateformes comme Hugging Face représente un pas en avant pour rendre les modèles d'IA avancés accessibles à un plus large éventail d'applications. La polyvalence et l'efficacité de ce modèle devraient réduire significativement le besoin de modèles de vision spécifiques à des tâches multiples, rationalisant ainsi le processus de développement pour des applications dans divers domaines, de l'analyse d'image automatisée aux systèmes de compréhension visuelle avancée .