Dieser Text wurde automatisch aus der englischen Originalversion übersetzt.
Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle
ICCV 2025
SAM-pose2seg: Pose-Guided Human Instance Segmentation in Crowds
CVWW 2026
BBoxMaskPose v2:
Expanding Mutual Conditioning to 3D
Bounding Boxes, Instanzmasken und Posen erfassen komplementäre Aspekte des menschlichen Körpers; ihre gegenseitige Konsistenz aufrechtzuerhalten, löst Mehrdeutigkeiten, die in dichten Szenen dominieren. Das BBox–Mask–Pose-Framework verknüpft Detektion, Posenabschätzung und Segmentierung in einer iterativen Schleife, wobei jede Vorhersage die anderen verfeinert. ProbPose ergänzt kalibrierte Unsicherheit, Sichtbarkeit und Anwesenheitsmodellierung und stabilisiert Schlüsselpunkte bei Okklusion und Zuschnitt. PMPose kombiniert probabilistische Modellierung mit Maskenkonditionierung und ermöglicht robuste Top-down-Posenschätzung in dichten Interaktionen. SAM-pose2seg spezialisiert SAM für posegeführte Personensegmentierung, vereinfacht das Prompting und verbessert die Maskenqualität in Menschenmengen. Zusammen bilden diese Komponenten BBoxMaskPose v2, liefern klare Verbesserungen bei der Trennung interagierender Personen und setzen neue State-of-the-Art-Ergebnisse auf COCO und OCHuman sowie in der nachgelagerten 3D-Posenschätzung. Es ist die erste Methode mit Ergebnissen über 50 AP auf OCHuman. Diese Arbeit zeigt, dass strukturierte gegenseitige Konditionierung kleiner, aufgabenspezifischer Modelle effektiver sein kann als das Skalieren großer, gemeinsam genutzter, menschenzentrierter Foundation-Modelle.
Alle Komponenten sind Teil der GitHub-Codebasis.
BBox-Mask-Pose
Iterative Schleife aus Detektion, Posenabschätzung und Instanzsegmentierung, wobei jede Vorhersage explizit auf die anderen konditioniert ist. Durch das Erzwingen der Konsistenz zwischen den Repräsentationen korrigiert die Schleife Fehler schrittweise, trennt interagierende Personen und gewinnt übersehene Instanzen zurück.
PMPose
Top-down-2D-Posenschätzer, der Maskenkonditionierung mit einer probabilistischen Keypoint-Repräsentation kombiniert und State-of-the-Art-Leistung unter Top-down-Methoden erreicht, insbesondere in dichten Szenen.
SAM-pose2seg
Posegeführtes Instanzsegmentierungsmodell, das SAM anpasst, um Personen aus 2D-Posen-Keypoints zu segmentieren. Durch die Ausrichtung von Prompting und Decoder auf Posenhinweise erzeugt es in dichten Szenen sauberere und stabilere Masken.
OCHuman-Pose-Datensatz
Neue Mehrpersonen-Daten für anspruchsvolle dichte Szenarien. Erweiterung des OCHuman-Datensatzes mit 2D-Posenannotation für alle sichtbaren Personen, einschließlich zuvor ignorierter Instanzen. Sie ermöglicht eine genauere Bewertung von Detektion und Posenabschätzung als das ursprüngliche OCHuman.
Der OCHuman-Pose-Datensatz wird auf Hugging Face gehostet. Laden Sie die Dateien über den folgenden Link herunter.
Vergleich der Detektion und Segmentierung von RTMDet (links) und BBox-Mask-Pose (rechts). BMP verbessert die Segmentierungsmasken des gegebenen Detektors, insbesondere bei getrennten Körperteilen wie Gliedmaßen. BBox-Mask-Pose erkennt außerdem die korrekte Anzahl an Personen, selbst in Szenen mit extremer Überlappung der Bounding Boxes.
@InProceedings{BMPv2,
author = {Purkrabek, Miroslav and Kolomiiets, Constantin and Matas, Jiri},
title = {BBoxMaskPose v2: Expanding Mutual Conditioning to 3D},
booktitle = {arXiv preprint arXiv:to be added},
year = {2026}
}
@InProceedings{Purkrabek2025ICCV,
author = {Purkrabek, Miroslav and Matas, Jiri},
title = {Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle},
booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)},
month = {October},
year = {2025}
}
@InProceedings{Kolomiiets2026CVWW,
author = {Kolomiiets, Constantin and Purkrabek, Miroslav and Matas, Jiri},
title = {SAM-pose2seg: Pose-Guided Human Instance Segmentation in Crowds},
booktitle = {Computer Vision Winter Workshop (CVWW)},
year = {2026}
}