Idioma
English 中文 日本語 한국어 Español Deutsch Français العربية Čeština

Proyecto BBox-Mask-Pose

ICCV 2025 CVPR 2025
Miroslav Purkrabek, Constantin Kolomiiets, Jiri Matas
Grupo de Reconocimiento Visual
Universidad Técnica Checa en Praga

Este texto ha sido traducido automáticamente desde la versión original en inglés.

BBox-Mask-Pose loop GIF

Artículos

Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle

ICCV 2025

Grupo de Reconocimiento Visual
Universidad Técnica Checa en Praga

SAM-pose2seg: Pose-Guided Human Instance Segmentation in Crowds

CVWW 2026

Constantin Kolomiiets, Miroslav Purkrabek, Jiri Matas
Grupo de Reconocimiento Visual
Universidad Técnica Checa en Praga

BBoxMaskPose v2:
Expanding Mutual Conditioning to 3D


Miroslav Purkrabek, Constantin Kolomiiets, Jiri Matas
Grupo de Reconocimiento Visual
Universidad Técnica Checa en Praga

Resumen del proyecto

Las cajas delimitadoras, los máscaras de instancia y las poses capturan aspectos complementarios del cuerpo humano; imponer su coherencia mutua resuelve las ambigüedades dominantes en escenas concurridas. El marco BBox–Mask–Pose conecta la detección, la estimación de pose y la segmentación en un bucle iterativo, donde cada predicción se usa para refinar las demás. ProbPose añade incertidumbre calibrada y modelado de visibilidad y presencia, estabilizando los puntos clave bajo oclusión y recorte. PMPose combina modelado probabilístico con condicionamiento por máscara, permitiendo una estimación top‑down robusta en interacciones densas. SAM-pose2seg especializa SAM para la segmentación humana guiada por la pose, simplificando el prompting y mejorando la calidad de las máscaras en multitudes. En conjunto, estos componentes forman BBoxMaskPose v2, ofreciendo mejoras claras en la separación de personas en interacción y estableciendo un nuevo estado del arte en COCO, OCHuman y en la estimación de pose 3D aguas abajo. Es el primer método con resultados por encima de 50 AP en OCHuman. Este trabajo muestra que el condicionamiento mutuo estructurado de modelos pequeños y específicos por tarea puede ser más efectivo que escalar grandes modelos fundacionales centrados en humanos.

Contribuciones

Todos los componentes forman parte de la base de código de GitHub.

BBox-Mask-Pose

Bucle iterativo de detección, estimación de pose y segmentación de instancias, donde cada predicción está explícitamente condicionada por las demás. Al imponer coherencia entre representaciones, el bucle corrige errores progresivamente, separa personas en interacción y recupera instancias perdidas.

PMPose

Estimador top‑down 2D que combina condicionamiento por máscara con una representación probabilista de puntos clave, alcanzando el estado del arte entre métodos top‑down, especialmente en escenas concurridas.

SAM-pose2seg

Modelo de segmentación de instancias humanas guiado por pose que adapta SAM para segmentar personas a partir de puntos clave 2D. Alinear el prompting y el decodificador con señales de pose produce máscaras más limpias y estables en escenas concurridas.

Conjunto de datos OCHuman-Pose

Nuevos datos multi‑persona para escenarios de alta densidad. Extiende OCHuman con anotaciones de pose 2D para todas las personas visibles, incluidas instancias antes ignoradas. Permite una evaluación más precisa de detección y estimación de pose que el OCHuman original.

Conjunto de datos OCHuman-Pose

El conjunto de datos OCHuman-Pose está alojado en Hugging Face. Descarga los archivos desde el enlace de abajo.

Conjunto de datos en Hugging Face (próximamente)

Video explicativo (2 min)

Resultados

Comparación de la detección y segmentación de RTMDet (izquierda) y BBox-Mask-Pose (derecha). BMP mejora las máscaras de segmentación del detector dado, especialmente para partes corporales desconectadas como las extremidades. BBox-Mask-Pose también detecta el número correcto de personas incluso en escenas con solapamiento extremo de cajas delimitadoras.

BibTeX


        @InProceedings{BMPv2,
            author    = {Purkrabek, Miroslav and Kolomiiets, Constantin and Matas, Jiri},
            title     = {BBoxMaskPose v2: Expanding Mutual Conditioning to 3D},
            booktitle = {arXiv preprint arXiv:to be added},
            year      = {2026}
       }

        @InProceedings{Purkrabek2025ICCV,
            author    = {Purkrabek, Miroslav and Matas, Jiri},
            title     = {Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle},
            booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)},
            month     = {October},
            year      = {2025}
        }

        @InProceedings{Kolomiiets2026CVWW,
            author    = {Kolomiiets, Constantin and Purkrabek, Miroslav and Matas, Jiri},
            title     = {SAM-pose2seg: Pose-Guided Human Instance Segmentation in Crowds},
            booktitle = {Computer Vision Winter Workshop (CVWW)},
            year      = {2026}
        }