Jazyk
English 中文 日本語 한국어 Español Deutsch Français العربية Čeština

Projekt BBox-Mask-Pose

ICCV 2025 CVPR 2025
Miroslav Purkrabek, Constantin Kolomiiets, Jiri Matas
Skupina vizuálního rozpoznávání
České vysoké učení technické v Praze

Tento text byl automaticky přeložen z původní anglické verze.

BBox-Mask-Pose loop GIF

Publikace

Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle

ICCV 2025

Skupina vizuálního rozpoznávání
České vysoké učení technické v Praze

SAM-pose2seg: Pose-Guided Human Instance Segmentation in Crowds

CVWW 2026

Constantin Kolomiiets, Miroslav Purkrabek, Jiri Matas
Skupina vizuálního rozpoznávání
České vysoké učení technické v Praze

BBoxMaskPose v2:
Expanding Mutual Conditioning to 3D


Miroslav Purkrabek, Constantin Kolomiiets, Jiri Matas
Skupina vizuálního rozpoznávání
České vysoké učení technické v Praze

Přehled projektu

Ohraničující rámečky, instanční masky a pózy zachycují komplementární aspekty lidského těla; vynucení jejich vzájemné konzistence řeší nejednoznačnosti, které dominují přeplněným scénám. Rámec BBox–Mask–Pose propojuje detekci, odhad póz a segmentaci v iterativní smyčce, kde každá predikce zpřesňuje ostatní. ProbPose přidává kalibrovanou nejistotu, modelování viditelnosti a přítomnosti, čímž stabilizuje klíčové body při zakrytí a ořezu. PMPose kombinuje pravděpodobnostní modelování s podmíněním maskou, což umožňuje robustní top-down odhad póz v hustých interakcích. SAM-pose2seg specializuje SAM pro segmentaci osob řízenou pózou, zjednodušuje prompting a zlepšuje kvalitu masek v davu. Tyto komponenty společně tvoří BBoxMaskPose v2, přinášejí výrazná zlepšení při rozdělování interagujících osob a dosahují nového state-of-the-art na COCO a OCHuman i v navazujícím 3D odhadu póz. Jde o první metodu s výsledky nad 50 AP na OCHuman. Tato práce ukazuje, že strukturované vzájemné podmínění menších, úzce zaměřených modelů může být efektivnější než škálování velkých, sdílených, na člověka zaměřených foundation modelů.

Příspěvky

Všechny komponenty jsou součástí kódu na GitHubu.

BBox-Mask-Pose

Iterativní smyčka detekce, odhadu póz a instanční segmentace, kde je každá predikce explicitně podmíněna ostatními. Vynucením konzistence mezi reprezentacemi smyčka postupně opravuje chyby, odděluje interagující osoby a obnovuje chybějící instance.

PMPose

Top-down 2D odhadovač póz, který kombinuje podmínění maskou s pravděpodobnostní reprezentací klíčových bodů a dosahuje state-of-the-art výkonu mezi top-down metodami, zejména v přeplněných scénách.

SAM-pose2seg

Model instanční segmentace řízený pózou, který přizpůsobuje SAM pro segmentaci lidí z 2D klíčových bodů. Díky sladění promptingu a dekodéru s pózovými signály vytváří čistší a stabilnější masky v přeplněných scénách.

Datová sada OCHuman-Pose

Nová víceosobní data pro náročné přeplněné scénáře. Rozšíření datasetu OCHuman o 2D anotace póz pro všechny viditelné osoby, včetně dříve ignorovaných instancí. Umožňuje přesnější vyhodnocení detekce a odhadu póz než původní OCHuman.

Datová sada OCHuman-Pose

Datová sada OCHuman-Pose je hostována na Hugging Face. Soubory stáhněte z odkazu níže.

Datová sada na Hugging Face (již brzy)

Vysvětlující video (2 min)

Výsledky

Srovnání detekce a segmentace RTMDet (vlevo) a BBox-Mask-Pose (vpravo). BMP zlepšuje segmentační masky daného detektoru, zejména u oddělených částí těla, jako jsou končetiny. BBox-Mask-Pose také detekuje správný počet lidí i ve scénách s extrémním překryvem ohraničujících rámečků.

BibTeX


              @InProceedings{BMPv2,
                  author    = {Purkrabek, Miroslav and Kolomiiets, Constantin and Matas, Jiri},
                  title     = {BBoxMaskPose v2: Expanding Mutual Conditioning to 3D},
                  booktitle = {arXiv preprint arXiv:to be added},
                  year      = {2026}
             }

              @InProceedings{Purkrabek2025ICCV,
                  author    = {Purkrabek, Miroslav and Matas, Jiri},
                  title     = {Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle},
                  booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)},
                  month     = {October},
                  year      = {2025}
              }

              @InProceedings{Kolomiiets2026CVWW,
                  author    = {Kolomiiets, Constantin and Purkrabek, Miroslav and Matas, Jiri},
                  title     = {SAM-pose2seg: Pose-Guided Human Instance Segmentation in Crowds},
                  booktitle = {Computer Vision Winter Workshop (CVWW)},
                  year      = {2026}
              }