Ignorer et passer au contenu

Microsoft Dévoile Florence-2 : Un Modèle de Vision Unifié

19 Jun 2024

Microsoft Dévoile Florence-2 : Un Modèle de Vision Unifié

Microsoft a présenté Florence-2, un modèle de fondation visionnaire révolutionnaire conçu pour gérer une large gamme de tâches de vision et de langage visuel. Ce modèle se distingue par une approche unifiée basée sur des prompts, lui permettant d'exécuter plusieurs tâches telles que la légende d'image, la détection d'objets, l'ancrage visuel et la segmentation avec une efficacité et une précision remarquables. Florence-2 exploite un jeu de données à grande échelle, FLD-5B, qui comprend 5,4 milliards d'annotations réparties sur 126 millions d'images, pour atteindre ses capacités polyvalentes .

L'architecture de Florence-2 intègre une structure séquence-à-séquence avec un encodeur de vision DaViT qui convertit les images en embeddings de tokens visuels. Ces embeddings sont combinés avec des embeddings de texte générés par BERT et traités via un encodeur-décodeur multi-modal basé sur des transformers. Cette configuration permet au modèle de comprendre et d'exécuter diverses tâches de vision à travers des prompts textuels, le rendant adaptable et puissant malgré sa taille compacte. Le modèle est disponible en deux versions, avec 232 millions et 771 millions de paramètres, lui permettant de surpasser de nombreux modèles plus grands dans des scénarios de zero-shot et de fine-tuning .

L'une des avancées significatives de Florence-2 est sa capacité à performer aussi bien ou mieux que des modèles spécialisés dans différentes tâches de vision. Par exemple, dans des tests de légende d'image zero-shot sur le jeu de données COCO, les deux versions de Florence-2 ont surpassé le modèle de langage visuel Flamingo de DeepMind et le modèle Kosmos-2 de Microsoft. Cette performance est attribuée aux annotations complètes et diversifiées du jeu de données FLD-5B, générées à l'aide d'une stratégie itérative d'annotation d'image automatisée et de raffinement de modèle .

La sortie de Florence-2 sous la licence permissive MIT sur des plateformes comme Hugging Face représente un pas en avant pour rendre les modèles d'IA avancés accessibles à un plus large éventail d'applications. La polyvalence et l'efficacité de ce modèle devraient réduire significativement le besoin de modèles de vision spécifiques à des tâches multiples, rationalisant ainsi le processus de développement pour des applications dans divers domaines, de l'analyse d'image automatisée aux systèmes de compréhension visuelle avancée .

Source

Les plus populaires

Toutes les recommandations
Cursor
Underlord par Descript
€0,00
€0,00
Eleven Labs
€0,00
€0,00
Looka
€0,00
€0,00
Murf AI
€0,00
€0,00
AdCreative.ai
€0,00
€0,00
Photo AI
€0,00
€0,00
Reply.io
€0,00
€0,00
MagicSlides
€0,00
€0,00
Pika Labs
€0,00
€0,00
LogoAI
€0,00
€0,00
Deepbrain AI
€0,00
€0,00
Mixo
€0,00
€0,00
FineShare FineCam
€0,00
€0,00
Taplio
€0,00
€0,00
Article Fiesta
€0,00
€0,00
Descript
€0,00
€0,00
AI Lawyer
€0,00
€0,00
Humata AI
€0,00
€0,00
Ask Your PDF
€0,00
€0,00
Audioread.com
€0,00
€0,00

Merci de votre inscription

Cet e-mail a été enregistré !

Shop the look

Choose Options

AiToolsChampion
Attendez une seconde ! Nous avons une mission ultra-importante pour vous ! 🕵️‍♂️ Ne laissez pas les IA prendre le pouvoir ! L'humanité a besoin de héros comme vous pour rester à la pointe et guider l'intelligence artificielle vers le côté lumineux de la Force ! 🤖⚔️
Recevez les dernières nouvelles, outils et astuces et garder votre place de capitaine ! 💪
Edit Option
Back In Stock Notification
this is just a warning
Connexion