Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle
ICCV 2025
SAM-pose2seg: Pose-Guided Human Instance Segmentation in Crowds
CVWW 2026
BBoxMaskPose v2:
Expanding Mutual Conditioning to 3D
바운딩 박스, 인스턴스 마스크, 포즈는 인체의 상보적 측면을 포착하며, 이들의 상호 일관성을 강제하면 혼잡한 장면에서 지배적인 모호성이 해소됩니다. BBox–Mask–Pose 프레임워크는 검출, 포즈 추정, 분할을 반복 루프로 연결하고 각 예측을 다른 예측의 개선에 사용합니다. ProbPose는 보정된 불확실성, 가시성, 존재성 모델링을 추가해 가림과 크롭 상황에서 키포인트를 안정화합니다. PMPose는 확률적 모델링과 마스크 조건화를 결합하여 밀집 상호작용 환경에서도 강건한 top-down 포즈 추정을 가능하게 합니다. SAM-pose2seg는 SAM을 포즈 유도 인체 분할에 특화하여 프롬프트를 단순화하고 군중 장면의 마스크 품질을 향상합니다. 이 구성 요소들은 함께 BBoxMaskPose v2를 이루며, 상호작용하는 사람 분리를 크게 개선하고 COCO, OCHuman 및 하위 3D 포즈 추정에서 새로운 SOTA를 달성합니다. 이는 OCHuman에서 50 AP를 넘는 최초의 방법입니다. 본 연구는 소형 특화 모델 간 구조화된 상호 조건화가 대규모 범용 인체 파운데이션 모델을 확장하는 것보다 더 효과적일 수 있음을 보여줍니다.
모든 구성 요소는 GitHub 코드베이스에 포함됩니다.
BBox-Mask-Pose
검출, 포즈 추정, 인스턴스 분할을 반복적으로 연결하는 루프로, 각 예측은 다른 예측에 명시적으로 조건화됩니다. 표현 간 일관성을 강제함으로써 루프가 점진적으로 오류를 교정하고, 상호작용하는 인물을 분리하며, 누락된 인스턴스를 복원합니다.
PMPose
마스크 조건화와 확률적 키포인트 표현을 결합한 top‑down 2D 포즈 추정기로, 특히 혼잡한 장면에서 top‑down 계열의 SOTA 성능을 달성합니다.
SAM-pose2seg
2D 포즈 키포인트로부터 사람을 분할하도록 SAM을 적응시킨 포즈 유도 인스턴스 분할 모델입니다. 프롬프팅과 디코더를 포즈 단서에 정렬해 군중 장면에서 더 깔끔하고 안정적인 마스크를 생성합니다.
OCHuman-Pose 데이터셋
고밀도 장면을 위한 새로운 다인(多人) 데이터입니다. OCHuman 데이터셋을 확장하여, 이전에 무시되던 인스턴스까지 포함해 모든 가시 인물에 2D 포즈 주석을 추가했습니다. 원래의 OCHuman보다 검출과 포즈 추정을 더 정확하게 평가할 수 있습니다.
OCHuman-Pose 데이터셋은 Hugging Face에 호스팅되어 있습니다. 아래 링크에서 파일을 다운로드하세요.
RTMDet(왼쪽)의 검출/분할과 BBox-Mask-Pose(오른쪽)를 비교합니다. BMP는 검출기가 제공한 분할 마스크를 개선하며, 특히 사지와 같은 분리된 신체 부위에서 효과적입니다. BBox-Mask-Pose는 경계 상자가 극도로 겹치는 장면에서도 올바른 인원 수를 검출합니다.
@InProceedings{BMPv2,
author = {Purkrabek, Miroslav and Kolomiiets, Constantin and Matas, Jiri},
title = {BBoxMaskPose v2: Expanding Mutual Conditioning to 3D},
booktitle = {arXiv preprint arXiv:to be added},
year = {2026}
}
@InProceedings{Purkrabek2025ICCV,
author = {Purkrabek, Miroslav and Matas, Jiri},
title = {Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle},
booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)},
month = {October},
year = {2025}
}
@InProceedings{Kolomiiets2026CVWW,
author = {Kolomiiets, Constantin and Purkrabek, Miroslav and Matas, Jiri},
title = {SAM-pose2seg: Pose-Guided Human Instance Segmentation in Crowds},
booktitle = {Computer Vision Winter Workshop (CVWW)},
year = {2026}
}