言語
English 中文 日本語 한국어 Español Deutsch Français العربية Čeština

BBox-Mask-Pose プロジェクト

ICCV 2025 CVPR 2025
Miroslav Purkrabek, Constantin Kolomiiets, Jiri Matas
Visual Recognition Group
プラハのチェコ工科大学

このテキストは 英語の原文から自動翻訳されています。

BBox-Mask-Pose loop GIF

論文

Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle

ICCV 2025

Visual Recognition Group
プラハのチェコ工科大学

SAM-pose2seg: Pose-Guided Human Instance Segmentation in Crowds

CVWW 2026

Constantin Kolomiiets, Miroslav Purkrabek, Jiri Matas
Visual Recognition Group
プラハのチェコ工科大学

BBoxMaskPose v2:
Expanding Mutual Conditioning to 3D


Miroslav Purkrabek, Constantin Kolomiiets, Jiri Matas
Visual Recognition Group
プラハのチェコ工科大学

プロジェクト概要

バウンディングボックス、インスタンスマスク、ポーズは人体の補完的な側面を捉えます。相互の一貫性を強制することで、混雑シーンで支配的な曖昧さを解消できます。 BBox–Mask–Pose フレームワークは検出、ポーズ推定、セグメンテーションを反復ループで連結し、各予測を他の予測の改良に利用します。 ProbPose は校正された不確実性、可視性、存在性のモデリングを追加し、遮蔽や切り出し下でキーポイントを安定化します。 PMPose は確率的モデリングとマスク条件付けを組み合わせ、密な相互作用において堅牢な top-down 姿勢推定を実現します。 SAM-pose2seg は SAM をポーズ誘導型の人物セグメンテーションに特化し、プロンプトを簡素化して混雑シーンでのマスク品質を向上させます。 これらの構成要素は BBoxMaskPose v2 を形成し、相互作用する人物の分離を大きく改善し、COCO・OCHuman・下流 3D ポーズ推定で新たな SOTA を達成します。 これは OCHuman で 50 AP を超える初の手法です。 本研究は、小規模でタスク特化のモデル間に構造化された相互条件付けを施すことが、大規模な汎用人体基盤モデルのスケールアップより効果的になり得ることを示します。

貢献

すべてのコンポーネントは GitHub コードベースに含まれます。

BBox-Mask-Pose

検出・ポーズ推定・インスタンスセグメンテーションの反復ループで、各予測は他の予測に明示的に条件付けされます。 表現間の一貫性を強制することで、ループは段階的に誤りを修正し、相互作用する人物を分離し、見落としを回復します。

PMPose

マスク条件付けと確率的キーポイント表現を組み合わせた top‑down 2D ポーズ推定器で、特に混雑シーンで top‑down 手法の SOTA 性能を達成します。

SAM-pose2seg

2D ポーズキーポイントから人物をセグメント化するように SAM を適応した、ポーズ誘導型のインスタンスセグメンテーションモデルです。 プロンプトとデコーダをポーズ情報に整合させ、混雑シーンでよりクリーンで安定したマスクを生成します。

OCHuman-Pose データセット

混雑シーンに向けた新しいマルチパーソンデータです。 OCHuman を拡張し、以前は無視されていたインスタンスを含むすべての可視人物に 2D ポーズ注釈を追加しました。 元の OCHuman より検出とポーズ推定を正確に評価できます。

OCHuman-Pose データセット

OCHuman-Pose データセットは Hugging Face にホストされています。 以下のリンクからファイルをダウンロードしてください。

Hugging Face データセット(近日公開)

解説動画(2分)

結果

RTMDet(左)の検出・セグメンテーションと BBox-Mask-Pose(右)を比較します。 BMP は検出器が出力したセグメンテーションマスクを改善し、特に四肢など分断された部位で効果的です。 BBox-Mask-Pose はバウンディングボックスが極端に重なる場面でも正しい人数を検出します。

BibTeX


        @InProceedings{BMPv2,
            author    = {Purkrabek, Miroslav and Kolomiiets, Constantin and Matas, Jiri},
            title     = {BBoxMaskPose v2: Expanding Mutual Conditioning to 3D},
            booktitle = {arXiv preprint arXiv:to be added},
            year      = {2026}
       }

        @InProceedings{Purkrabek2025ICCV,
            author    = {Purkrabek, Miroslav and Matas, Jiri},
            title     = {Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle},
            booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)},
            month     = {October},
            year      = {2025}
        }

        @InProceedings{Kolomiiets2026CVWW,
            author    = {Kolomiiets, Constantin and Purkrabek, Miroslav and Matas, Jiri},
            title     = {SAM-pose2seg: Pose-Guided Human Instance Segmentation in Crowds},
            booktitle = {Computer Vision Winter Workshop (CVWW)},
            year      = {2026}
        }