语言
English 中文 日本語 한국어 Español Deutsch Français العربية Čeština

BBox-Mask-Pose 项目

ICCV 2025 CVPR 2025
Miroslav Purkrabek, Constantin Kolomiiets, Jiri Matas
视觉识别组
布拉格捷克理工大学

本文本自动翻译自 英文原文

BBox-Mask-Pose loop GIF

论文

Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle

ICCV 2025

视觉识别组
布拉格捷克理工大学

SAM-pose2seg: Pose-Guided Human Instance Segmentation in Crowds

CVWW 2026

Constantin Kolomiiets, Miroslav Purkrabek, Jiri Matas
视觉识别组
布拉格捷克理工大学

BBoxMaskPose v2:
Expanding Mutual Conditioning to 3D


Miroslav Purkrabek, Constantin Kolomiiets, Jiri Matas
视觉识别组
布拉格捷克理工大学

项目概览

边界框、实例掩码和姿态从互补角度刻画人体;强制它们的相互一致性可以消除拥挤场景中的关键歧义。 BBox–Mask–Pose 框架将检测、姿态估计与分割通过迭代闭环连接,每一次预测都用于改进其余任务。 ProbPose 引入校准的不确定性、可见性与存在性建模,在遮挡与裁剪下稳定关键点。 PMPose 将概率建模与掩码条件结合,实现密集交互场景中的稳健自顶向下姿态估计。 SAM-pose2seg 将 SAM 专门化为姿态引导的人体分割,简化提示并提升拥挤场景的掩码质量。 这些组件共同构成 BBoxMaskPose v2,显著提升交互人体的分离能力,并在 COCO、OCHuman 以及下游 3D 姿态估计上刷新 SOTA。 这是首个在 OCHuman 上取得超过 50 AP 的方法。 本工作展示:对小型、任务特定模型进行结构化的相互条件约束,可能比扩大共享特征的通用人体基础模型更有效。

贡献

所有组件均包含在 GitHub 代码库中。

BBox-Mask-Pose

检测、姿态估计与实例分割的迭代闭环,每次预测都显式条件于其他预测。 通过强制一致性,循环逐步纠错、分离交互人群,并恢复漏检实例。

PMPose

结合掩码条件与概率关键点表示的自顶向下 2D 姿态估计器,在拥挤场景中达到同类方法的 SOTA 表现。

SAM-pose2seg

将 SAM 适配为基于 2D 姿态关键点的实例分割模型。 通过对提示与解码器对齐姿态线索,在拥挤场景中生成更干净、更稳定的掩码。

OCHuman-Pose 数据集

面向高密度场景的新多人数据。 在 OCHuman 的基础上补充所有可见人的 2D 姿态标注,包括此前被忽略的实例。 相比原始 OCHuman,可更准确地评估检测与姿态估计。

OCHuman-Pose 数据集

OCHuman-Pose 数据集托管在 Hugging Face。 请通过以下链接下载文件。

Hugging Face 数据集(即将上线)

视频讲解(2 分钟)

结果

对比 RTMDet(左)的检测与分割与 BBox-Mask-Pose(右)。 BMP 改善检测器给出的分割掩码,尤其是断开的肢体等部位。 BBox-Mask-Pose 也能在极端边界框重叠的场景下检测出正确人数。

BibTeX


        @InProceedings{BMPv2,
            author    = {Purkrabek, Miroslav and Kolomiiets, Constantin and Matas, Jiri},
            title     = {BBoxMaskPose v2: Expanding Mutual Conditioning to 3D},
            booktitle = {arXiv preprint arXiv:to be added},
            year      = {2026}
       }

        @InProceedings{Purkrabek2025ICCV,
            author    = {Purkrabek, Miroslav and Matas, Jiri},
            title     = {Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle},
            booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)},
            month     = {October},
            year      = {2025}
        }

        @InProceedings{Kolomiiets2026CVWW,
            author    = {Kolomiiets, Constantin and Purkrabek, Miroslav and Matas, Jiri},
            title     = {SAM-pose2seg: Pose-Guided Human Instance Segmentation in Crowds},
            booktitle = {Computer Vision Winter Workshop (CVWW)},
            year      = {2026}
        }