Tento text byl automaticky přeložen z původní anglické verze.
Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle
ICCV 2025
SAM-pose2seg: Pose-Guided Human Instance Segmentation in Crowds
CVWW 2026
BBoxMaskPose v2:
Expanding Mutual Conditioning to 3D
Ohraničující rámečky, instanční masky a pózy zachycují komplementární aspekty lidského těla; vynucení jejich vzájemné konzistence řeší nejednoznačnosti, které dominují přeplněným scénám. Rámec BBox–Mask–Pose propojuje detekci, odhad póz a segmentaci v iterativní smyčce, kde každá predikce zpřesňuje ostatní. ProbPose přidává kalibrovanou nejistotu, modelování viditelnosti a přítomnosti, čímž stabilizuje klíčové body při zakrytí a ořezu. PMPose kombinuje pravděpodobnostní modelování s podmíněním maskou, což umožňuje robustní top-down odhad póz v hustých interakcích. SAM-pose2seg specializuje SAM pro segmentaci osob řízenou pózou, zjednodušuje prompting a zlepšuje kvalitu masek v davu. Tyto komponenty společně tvoří BBoxMaskPose v2, přinášejí výrazná zlepšení při rozdělování interagujících osob a dosahují nového state-of-the-art na COCO a OCHuman i v navazujícím 3D odhadu póz. Jde o první metodu s výsledky nad 50 AP na OCHuman. Tato práce ukazuje, že strukturované vzájemné podmínění menších, úzce zaměřených modelů může být efektivnější než škálování velkých, sdílených, na člověka zaměřených foundation modelů.
Všechny komponenty jsou součástí kódu na GitHubu.
BBox-Mask-Pose
Iterativní smyčka detekce, odhadu póz a instanční segmentace, kde je každá predikce explicitně podmíněna ostatními. Vynucením konzistence mezi reprezentacemi smyčka postupně opravuje chyby, odděluje interagující osoby a obnovuje chybějící instance.
PMPose
Top-down 2D odhadovač póz, který kombinuje podmínění maskou s pravděpodobnostní reprezentací klíčových bodů a dosahuje state-of-the-art výkonu mezi top-down metodami, zejména v přeplněných scénách.
SAM-pose2seg
Model instanční segmentace řízený pózou, který přizpůsobuje SAM pro segmentaci lidí z 2D klíčových bodů. Díky sladění promptingu a dekodéru s pózovými signály vytváří čistší a stabilnější masky v přeplněných scénách.
Datová sada OCHuman-Pose
Nová víceosobní data pro náročné přeplněné scénáře. Rozšíření datasetu OCHuman o 2D anotace póz pro všechny viditelné osoby, včetně dříve ignorovaných instancí. Umožňuje přesnější vyhodnocení detekce a odhadu póz než původní OCHuman.
Datová sada OCHuman-Pose je hostována na Hugging Face. Soubory stáhněte z odkazu níže.
Srovnání detekce a segmentace RTMDet (vlevo) a BBox-Mask-Pose (vpravo). BMP zlepšuje segmentační masky daného detektoru, zejména u oddělených částí těla, jako jsou končetiny. BBox-Mask-Pose také detekuje správný počet lidí i ve scénách s extrémním překryvem ohraničujících rámečků.
@InProceedings{BMPv2,
author = {Purkrabek, Miroslav and Kolomiiets, Constantin and Matas, Jiri},
title = {BBoxMaskPose v2: Expanding Mutual Conditioning to 3D},
booktitle = {arXiv preprint arXiv:to be added},
year = {2026}
}
@InProceedings{Purkrabek2025ICCV,
author = {Purkrabek, Miroslav and Matas, Jiri},
title = {Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle},
booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)},
month = {October},
year = {2025}
}
@InProceedings{Kolomiiets2026CVWW,
author = {Kolomiiets, Constantin and Purkrabek, Miroslav and Matas, Jiri},
title = {SAM-pose2seg: Pose-Guided Human Instance Segmentation in Crowds},
booktitle = {Computer Vision Winter Workshop (CVWW)},
year = {2026}
}