Langue
English 中文 日本語 한국어 Español Deutsch Français العربية Čeština

Projet BBox-Mask-Pose

ICCV 2025 CVPR 2025
Miroslav Purkrabek, Constantin Kolomiiets, Jiri Matas
Groupe de reconnaissance visuelle
Université technique tchèque de Prague

Ce texte a été traduit automatiquement depuis la version anglaise originale.

BBox-Mask-Pose loop GIF

Articles

Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle

ICCV 2025

Groupe de reconnaissance visuelle
Université technique tchèque de Prague

SAM-pose2seg: Pose-Guided Human Instance Segmentation in Crowds

CVWW 2026

Constantin Kolomiiets, Miroslav Purkrabek, Jiri Matas
Groupe de reconnaissance visuelle
Université technique tchèque de Prague

BBoxMaskPose v2:
Expanding Mutual Conditioning to 3D


Miroslav Purkrabek, Constantin Kolomiiets, Jiri Matas
Groupe de reconnaissance visuelle
Université technique tchèque de Prague

Présentation du projet

Les boîtes englobantes, les masques d’instances et les poses capturent des aspects complémentaires du corps humain ; imposer leur cohérence mutuelle résout les ambiguïtés dominantes des scènes encombrées. Le cadre BBox–Mask–Pose relie la détection, l’estimation de pose et la segmentation dans une boucle itérative, où chaque prédiction sert à affiner les autres. ProbPose ajoute une incertitude calibrée ainsi que la modélisation de la visibilité et de la présence, stabilisant les points clés en cas d’occlusion et de recadrage. PMPose combine modélisation probabiliste et conditionnement par masque, permettant une estimation robuste de pose top‑down dans des interactions denses. SAM-pose2seg spécialise SAM pour la segmentation humaine guidée par la pose, simplifiant le prompting et améliorant la qualité des masques dans les foules. Ensemble, ces composants forment BBoxMaskPose v2, apportant des améliorations nettes pour séparer des personnes en interaction et établissant un nouvel état de l’art sur COCO, OCHuman et la pose 3D en aval. C’est la première méthode dépassant 50 AP sur OCHuman. Ce travail montre qu’un conditionnement mutuel structuré de petits modèles spécialisés peut être plus efficace que l’augmentation d’un grand modèle fondation centré sur l’humain.

Contributions

Tous les composants font partie de la base de code GitHub.

BBox-Mask-Pose

Boucle itérative de détection, estimation de pose et segmentation d’instances, où chaque prédiction est explicitement conditionnée par les autres. En imposant la cohérence entre représentations, la boucle corrige progressivement les erreurs, sépare les personnes en interaction et récupère les instances manquées.

PMPose

Estimateur top‑down 2D qui combine conditionnement par masque et représentation probabiliste des points clés, atteignant l’état de l’art parmi les méthodes top‑down, en particulier dans les scènes encombrées.

SAM-pose2seg

Modèle de segmentation d’instances humaines guidé par la pose, qui adapte SAM pour segmenter à partir de points clés 2D. En alignant le prompting et le décodeur sur les indices de pose, il produit des masques plus propres et plus stables dans les foules.

Jeu de données OCHuman-Pose

Nouvelles données multi‑personnes pour des scénarios très encombrés. Extension d’OCHuman avec des annotations de pose 2D pour toutes les personnes visibles, y compris les instances auparavant ignorées. Permet une évaluation plus précise de la détection et de l’estimation de pose qu’OCHuman original.

Jeu de données OCHuman-Pose

Le jeu de données OCHuman-Pose est hébergé sur Hugging Face. Téléchargez les fichiers via le lien ci-dessous.

Jeu de données Hugging Face (bientôt)

Vidéo explicative (2 min)

Résultats

Comparaison de la détection et de la segmentation RTMDet (à gauche) et BBox-Mask-Pose (à droite). BMP améliore les masques de segmentation du détecteur donné, en particulier pour les parties disjointes du corps comme les membres. BBox-Mask-Pose détecte également le bon nombre de personnes même dans des scènes avec un fort chevauchement des boîtes englobantes.

BibTeX


        @InProceedings{BMPv2,
            author    = {Purkrabek, Miroslav and Kolomiiets, Constantin and Matas, Jiri},
            title     = {BBoxMaskPose v2: Expanding Mutual Conditioning to 3D},
            booktitle = {arXiv preprint arXiv:to be added},
            year      = {2026}
       }

        @InProceedings{Purkrabek2025ICCV,
            author    = {Purkrabek, Miroslav and Matas, Jiri},
            title     = {Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle},
            booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)},
            month     = {October},
            year      = {2025}
        }

        @InProceedings{Kolomiiets2026CVWW,
            author    = {Kolomiiets, Constantin and Purkrabek, Miroslav and Matas, Jiri},
            title     = {SAM-pose2seg: Pose-Guided Human Instance Segmentation in Crowds},
            booktitle = {Computer Vision Winter Workshop (CVWW)},
            year      = {2026}
        }