Sprache
English 中文 日本語 한국어 Español Deutsch Français العربية Čeština

BBox-Mask-Pose Projekt

ICCV 2025 CVPR 2025
Miroslav Purkrabek, Constantin Kolomiiets, Jiri Matas
Gruppe für visuelle Erkennung
Tschechische Technische Universität in Prag

Dieser Text wurde automatisch aus der englischen Originalversion übersetzt.

BBox-Mask-Pose loop GIF

Publikationen

Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle

ICCV 2025

Gruppe für visuelle Erkennung
Tschechische Technische Universität in Prag

SAM-pose2seg: Pose-Guided Human Instance Segmentation in Crowds

CVWW 2026

Constantin Kolomiiets, Miroslav Purkrabek, Jiri Matas
Gruppe für visuelle Erkennung
Tschechische Technische Universität in Prag

BBoxMaskPose v2:
Expanding Mutual Conditioning to 3D


Miroslav Purkrabek, Constantin Kolomiiets, Jiri Matas
Gruppe für visuelle Erkennung
Tschechische Technische Universität in Prag

Projektübersicht

Bounding Boxes, Instanzmasken und Posen erfassen komplementäre Aspekte des menschlichen Körpers; ihre gegenseitige Konsistenz aufrechtzuerhalten, löst Mehrdeutigkeiten, die in dichten Szenen dominieren. Das BBox–Mask–Pose-Framework verknüpft Detektion, Posenabschätzung und Segmentierung in einer iterativen Schleife, wobei jede Vorhersage die anderen verfeinert. ProbPose ergänzt kalibrierte Unsicherheit, Sichtbarkeit und Anwesenheitsmodellierung und stabilisiert Schlüsselpunkte bei Okklusion und Zuschnitt. PMPose kombiniert probabilistische Modellierung mit Maskenkonditionierung und ermöglicht robuste Top-down-Posenschätzung in dichten Interaktionen. SAM-pose2seg spezialisiert SAM für posegeführte Personensegmentierung, vereinfacht das Prompting und verbessert die Maskenqualität in Menschenmengen. Zusammen bilden diese Komponenten BBoxMaskPose v2, liefern klare Verbesserungen bei der Trennung interagierender Personen und setzen neue State-of-the-Art-Ergebnisse auf COCO und OCHuman sowie in der nachgelagerten 3D-Posenschätzung. Es ist die erste Methode mit Ergebnissen über 50 AP auf OCHuman. Diese Arbeit zeigt, dass strukturierte gegenseitige Konditionierung kleiner, aufgabenspezifischer Modelle effektiver sein kann als das Skalieren großer, gemeinsam genutzter, menschenzentrierter Foundation-Modelle.

Beiträge

Alle Komponenten sind Teil der GitHub-Codebasis.

BBox-Mask-Pose

Iterative Schleife aus Detektion, Posenabschätzung und Instanzsegmentierung, wobei jede Vorhersage explizit auf die anderen konditioniert ist. Durch das Erzwingen der Konsistenz zwischen den Repräsentationen korrigiert die Schleife Fehler schrittweise, trennt interagierende Personen und gewinnt übersehene Instanzen zurück.

PMPose

Top-down-2D-Posenschätzer, der Maskenkonditionierung mit einer probabilistischen Keypoint-Repräsentation kombiniert und State-of-the-Art-Leistung unter Top-down-Methoden erreicht, insbesondere in dichten Szenen.

SAM-pose2seg

Posegeführtes Instanzsegmentierungsmodell, das SAM anpasst, um Personen aus 2D-Posen-Keypoints zu segmentieren. Durch die Ausrichtung von Prompting und Decoder auf Posenhinweise erzeugt es in dichten Szenen sauberere und stabilere Masken.

OCHuman-Pose-Datensatz

Neue Mehrpersonen-Daten für anspruchsvolle dichte Szenarien. Erweiterung des OCHuman-Datensatzes mit 2D-Posenannotation für alle sichtbaren Personen, einschließlich zuvor ignorierter Instanzen. Sie ermöglicht eine genauere Bewertung von Detektion und Posenabschätzung als das ursprüngliche OCHuman.

OCHuman-Pose-Datensatz

Der OCHuman-Pose-Datensatz wird auf Hugging Face gehostet. Laden Sie die Dateien über den folgenden Link herunter.

Hugging Face-Datensatz (demnächst)

Videoerklärung (2 min)

Ergebnisse

Vergleich der Detektion und Segmentierung von RTMDet (links) und BBox-Mask-Pose (rechts). BMP verbessert die Segmentierungsmasken des gegebenen Detektors, insbesondere bei getrennten Körperteilen wie Gliedmaßen. BBox-Mask-Pose erkennt außerdem die korrekte Anzahl an Personen, selbst in Szenen mit extremer Überlappung der Bounding Boxes.

BibTeX


        @InProceedings{BMPv2,
            author    = {Purkrabek, Miroslav and Kolomiiets, Constantin and Matas, Jiri},
            title     = {BBoxMaskPose v2: Expanding Mutual Conditioning to 3D},
            booktitle = {arXiv preprint arXiv:to be added},
            year      = {2026}
       }

        @InProceedings{Purkrabek2025ICCV,
            author    = {Purkrabek, Miroslav and Matas, Jiri},
            title     = {Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle},
            booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)},
            month     = {October},
            year      = {2025}
        }

        @InProceedings{Kolomiiets2026CVWW,
            author    = {Kolomiiets, Constantin and Purkrabek, Miroslav and Matas, Jiri},
            title     = {SAM-pose2seg: Pose-Guided Human Instance Segmentation in Crowds},
            booktitle = {Computer Vision Winter Workshop (CVWW)},
            year      = {2026}
        }