Des chercheurs chinois rapportent que la combinaison de DINO avec Grounded Pre-Training peut améliorer les performances de la détection d’objets en mode ouvert.
Grounding DINO est un détecteur d’objets en mode ouvert qui utilise le langage pour détecter des objets arbitraires avec des entrées humaines telles que des noms de catégories ou des expressions de référence. Le modèle s’appuie sur DINO, un détecteur basé sur des transformateurs qui intègre des informations textuelles multi-niveaux grâce à un pré-entraînement ancré. Les auteurs présentent une solution de fusion étroite, qui comprend un amplificateur de fonctionnalités, une sélection de requêtes guidée par le langage et un décodeur croisé pour une fusion croisée efficace des modalités. Les chercheurs étendent l’évaluation de la détection d’objets en mode ouvert à des ensembles de données de compréhension des expressions de référence. Grounding DINO surpasse les concurrents sur les benchmarks existants pour la détection en mode fermé, la détection en mode ouvert et la détection d’objets de référence. Ils soulignent les avantages des détecteurs basés sur des transformateurs pour la détection en mode ouvert et préconisent une fusion plus importante des fonctionnalités dans le pipeline pour obtenir de meilleures performances. Le modèle proposé a des applications potentielles dans les modèles générateurs pour l’édition d’images. Les chercheurs travaillant sur l’apprentissage multimodal, la détection d’objets en mode ouvert et l’apprentissage par transfert trouveront ce document pertinent. Le terme “pré-entraînement ancré” désigne un processus dans lequel un modèle est entraîné en utilisant à la fois des informations visuelles et textuelles pour établir une connexion solide entre les deux modalités. Dans le contexte de cette étude, les auteurs entraînent leur modèle sur un grand ensemble de données comprenant à la fois des images et des descriptions textuelles associées. Cet entraînement permet au modèle d’apprendre des représentations qui capturent efficacement les relations entre les caractéristiques visuelles et les informations textuelles. En ancrant la compréhension du langage du modèle dans le domaine visuel, il devient mieux équipé pour comprendre et détecter des objets en fonction des indices textuels.
Ils ont commencé par proposer un détecteur basé sur des transformateurs appelé DINO, qui intègre des informations textuelles multi-niveaux dans son algorithme grâce à un pré-entraînement ancré. En s’appuyant sur DINO, ils ont développé Grounding DINO, un détecteur d’objets en mode ouvert qui utilise le langage pour détecter des objets arbitraires avec des entrées humaines telles que des noms de catégories ou des expressions de référence. Le modèle est composé de plusieurs composants, notamment un amplificateur de fonctionnalités, une sélection de requêtes guidée par le langage et un décodeur croisé pour la fusion des modalités croisées.
Pour entraîner leur modèle, ils ont utilisé différents types de données, notamment des données de détection d’objets provenant des ensembles de données COCO, O365 et OpenImage, des données d’ancrage provenant de GoldG et RefC, et des données de légende. Différentes entrées textuelles ont été simulées en échantillonnant aléatoirement des noms de catégories lors de l’entraînement. Ils ont entraîné deux variantes du modèle, Grounding-DINO-T avec Swin-T comme structure d’image, et Grounding-DINO-L avec Swin-L. La structure de texte utilisée était BERT-base de Hugging Face. Des détails d’implémentation supplémentaires peuvent être trouvés dans l’annexe de l’article.
Pour l’évaluation du modèle, ils ont mené des expériences approfondies selon trois paramètres : le paramètre en mode fermé sur le benchmark de détection COCO, le paramètre en mode ouvert sur les ensembles de données COCO avec zéro exemple, LVIS et ODinW, et le paramètre de détection de référence sur les ensembles de données RefCOCO/+/g. Ils ont également effectué des études d’ablation pour vérifier l’efficacité de la conception de leur modèle. De plus, ils ont exploré le transfert d’un modèle DINO pré-entraîné vers le modèle Grounding DINO pour réduire les coûts d’entraînement.
Les expériences ont montré que Grounding DINO surpassait les concurrents sur les benchmarks existants pour la détection en mode fermé, la détection en mode ouvert et la détection d’objets de référence. Les auteurs ont souligné les avantages des détecteurs basés sur des transformateurs pour la détection en mode ouvert et ont plaidé en faveur d’une fusion plus importante des fonctionnalités dans le pipeline pour obtenir de meilleures performances. Ils ont également mentionné que le modèle proposé avait des applications potentielles dans les modèles générateurs pour l’édition d’images.