اللغة
English 中文 日本語 한국어 Español Deutsch Français العربية Čeština

مشروع BBox-Mask-Pose

ICCV 2025 CVPR 2025
Miroslav Purkrabek, Constantin Kolomiiets, Jiri Matas
مجموعة التعرف البصري
الجامعة التقنية التشيكية في براغ

تمت ترجمة هذا النص تلقائيًا من النسخة الأصلية باللغة الإنجليزية.

BBox-Mask-Pose loop GIF

الأوراق

Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle

ICCV 2025

مجموعة التعرف البصري
الجامعة التقنية التشيكية في براغ

SAM-pose2seg: Pose-Guided Human Instance Segmentation in Crowds

CVWW 2026

Constantin Kolomiiets, Miroslav Purkrabek, Jiri Matas
مجموعة التعرف البصري
الجامعة التقنية التشيكية في براغ

BBoxMaskPose v2:
Expanding Mutual Conditioning to 3D


Miroslav Purkrabek, Constantin Kolomiiets, Jiri Matas
مجموعة التعرف البصري
الجامعة التقنية التشيكية في براغ

نظرة عامة على المشروع

تمثّل الصناديق المحيطة والأقنعة والهيئات جوانب مكملة للجسم البشري؛ وفرض الاتساق بينها يزيل الالتباسات التي تهيمن على المشاهد المكتظة. يربط إطار BBox–Mask–Pose بين الكشف وتقدير الوضعية والتجزئة في حلقة تكرارية، حيث تُستخدم كل تنبؤات لتحسين الأخرى. يضيف ProbPose عدم يقين مُعايرًا ونمذجة للرؤية والحضور، ما يثبّت النقاط الرئيسية تحت الحجب والقص. يجمع PMPose بين النمذجة الاحتمالية وتكييف القناع، ما يمكّن تقدير وضعية علوي متين في التفاعلات الكثيفة. يتخصص SAM-pose2seg في تكييف SAM لتجزئة البشر الموجّهة بالهيئة، فيبسّط التلميحات ويحسّن جودة الأقنعة في الحشود. تشكل هذه المكوّنات معًا BBoxMaskPose v2، وتقدّم تحسينات واضحة في فصل الأشخاص المتداخلين وتحقق نتائج رائدة على COCO وOCHuman وكذلك في تقدير الوضعية ثلاثي الأبعاد. وهي أول طريقة تحقق نتائج تتجاوز 50 AP على OCHuman. تُظهر هذه العمل أن التكييف المتبادل المنظّم لنماذج صغيرة متخصصة قد يكون أكثر فعالية من توسيع نماذج أساسية كبيرة مشتركة الميزات ومركّزة على البشر.

المساهمات

جميع المكوّنات جزء من قاعدة الكود على GitHub.

BBox-Mask-Pose

حلقة تكرارية للكشف وتقدير الوضعية وتجزئة الكائنات، حيث تُكيَّف كل تنبؤات صراحة على الأخرى. بفرض الاتساق بين التمثيلات، تُصحّح الحلقة الأخطاء تدريجيًا، وتفصل الأشخاص المتداخلين، وتستعيد الحالات المفقودة.

PMPose

مُقدِّر وضعية ثنائي الأبعاد من الأعلى إلى الأسفل يجمع بين تكييف القناع وتمثيل احتمالي للنقاط الرئيسية، ويحقق أداءً رائدًا بين طرق هذا النوع، خصوصًا في المشاهد المكتظة.

SAM-pose2seg

نموذج تجزئة كائنات موجه بالهيئة يكيّف SAM لتجزئة الأشخاص من نقاط هيكلية ثنائية الأبعاد. من خلال مواءمة التلميحات والمفكك مع إشارات الهيئة، ينتج أقنعة أنظف وأكثر استقرارًا في المشاهد المكتظة.

مجموعة بيانات OCHuman-Pose

بيانات متعددة الأشخاص لسيناريوهات ازدحام صعبة. توسعة لمجموعة بيانات OCHuman مع تعليقات وضعية ثنائية الأبعاد لكل الأشخاص المرئيين، بما في ذلك الحالات التي تم تجاهلها سابقًا. تمكّن من تقييم أدق للكشف وتقدير الوضعية مقارنةً بـ OCHuman الأصلي.

مجموعة بيانات OCHuman-Pose

تُستضاف مجموعة بيانات OCHuman-Pose على Hugging Face. حمّل الملفات من الرابط أدناه.

مجموعة بيانات Hugging Face (قريبًا)

شرح الفيديو (دقيقتان)

النتائج

مقارنة بين كشف وتقسيم RTMDet (يسار) وBBox-Mask-Pose (يمين). يحسّن BMP أقنعة التجزئة للمُكشّف المعطى، خصوصًا للأجزاء المنفصلة مثل الأطراف. كما يكتشف BBox-Mask-Pose العدد الصحيح من الأشخاص حتى في المشاهد ذات التداخل الشديد للصناديق المحيطة.

BibTeX


        @InProceedings{BMPv2,
            author    = {Purkrabek, Miroslav and Kolomiiets, Constantin and Matas, Jiri},
            title     = {BBoxMaskPose v2: Expanding Mutual Conditioning to 3D},
            booktitle = {arXiv preprint arXiv:to be added},
            year      = {2026}
       }

        @InProceedings{Purkrabek2025ICCV,
            author    = {Purkrabek, Miroslav and Matas, Jiri},
            title     = {Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle},
            booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)},
            month     = {October},
            year      = {2025}
        }

        @InProceedings{Kolomiiets2026CVWW,
            author    = {Kolomiiets, Constantin and Purkrabek, Miroslav and Matas, Jiri},
            title     = {SAM-pose2seg: Pose-Guided Human Instance Segmentation in Crowds},
            booktitle = {Computer Vision Winter Workshop (CVWW)},
            year      = {2026}
        }