Ce texte a été traduit automatiquement depuis la version anglaise originale.
Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle
ICCV 2025
SAM-pose2seg: Pose-Guided Human Instance Segmentation in Crowds
CVWW 2026
BBoxMaskPose v2:
Expanding Mutual Conditioning to 3D
Les boîtes englobantes, les masques d’instances et les poses capturent des aspects complémentaires du corps humain ; imposer leur cohérence mutuelle résout les ambiguïtés dominantes des scènes encombrées. Le cadre BBox–Mask–Pose relie la détection, l’estimation de pose et la segmentation dans une boucle itérative, où chaque prédiction sert à affiner les autres. ProbPose ajoute une incertitude calibrée ainsi que la modélisation de la visibilité et de la présence, stabilisant les points clés en cas d’occlusion et de recadrage. PMPose combine modélisation probabiliste et conditionnement par masque, permettant une estimation robuste de pose top‑down dans des interactions denses. SAM-pose2seg spécialise SAM pour la segmentation humaine guidée par la pose, simplifiant le prompting et améliorant la qualité des masques dans les foules. Ensemble, ces composants forment BBoxMaskPose v2, apportant des améliorations nettes pour séparer des personnes en interaction et établissant un nouvel état de l’art sur COCO, OCHuman et la pose 3D en aval. C’est la première méthode dépassant 50 AP sur OCHuman. Ce travail montre qu’un conditionnement mutuel structuré de petits modèles spécialisés peut être plus efficace que l’augmentation d’un grand modèle fondation centré sur l’humain.
Tous les composants font partie de la base de code GitHub.
BBox-Mask-Pose
Boucle itérative de détection, estimation de pose et segmentation d’instances, où chaque prédiction est explicitement conditionnée par les autres. En imposant la cohérence entre représentations, la boucle corrige progressivement les erreurs, sépare les personnes en interaction et récupère les instances manquées.
PMPose
Estimateur top‑down 2D qui combine conditionnement par masque et représentation probabiliste des points clés, atteignant l’état de l’art parmi les méthodes top‑down, en particulier dans les scènes encombrées.
SAM-pose2seg
Modèle de segmentation d’instances humaines guidé par la pose, qui adapte SAM pour segmenter à partir de points clés 2D. En alignant le prompting et le décodeur sur les indices de pose, il produit des masques plus propres et plus stables dans les foules.
Jeu de données OCHuman-Pose
Nouvelles données multi‑personnes pour des scénarios très encombrés. Extension d’OCHuman avec des annotations de pose 2D pour toutes les personnes visibles, y compris les instances auparavant ignorées. Permet une évaluation plus précise de la détection et de l’estimation de pose qu’OCHuman original.
Le jeu de données OCHuman-Pose est hébergé sur Hugging Face. Téléchargez les fichiers via le lien ci-dessous.
Comparaison de la détection et de la segmentation RTMDet (à gauche) et BBox-Mask-Pose (à droite). BMP améliore les masques de segmentation du détecteur donné, en particulier pour les parties disjointes du corps comme les membres. BBox-Mask-Pose détecte également le bon nombre de personnes même dans des scènes avec un fort chevauchement des boîtes englobantes.
@InProceedings{BMPv2,
author = {Purkrabek, Miroslav and Kolomiiets, Constantin and Matas, Jiri},
title = {BBoxMaskPose v2: Expanding Mutual Conditioning to 3D},
booktitle = {arXiv preprint arXiv:to be added},
year = {2026}
}
@InProceedings{Purkrabek2025ICCV,
author = {Purkrabek, Miroslav and Matas, Jiri},
title = {Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle},
booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)},
month = {October},
year = {2025}
}
@InProceedings{Kolomiiets2026CVWW,
author = {Kolomiiets, Constantin and Purkrabek, Miroslav and Matas, Jiri},
title = {SAM-pose2seg: Pose-Guided Human Instance Segmentation in Crowds},
booktitle = {Computer Vision Winter Workshop (CVWW)},
year = {2026}
}