تمت ترجمة هذا النص تلقائيًا من النسخة الأصلية باللغة الإنجليزية.
Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle
ICCV 2025
SAM-pose2seg: Pose-Guided Human Instance Segmentation in Crowds
CVWW 2026
BBoxMaskPose v2:
Expanding Mutual Conditioning to 3D
تمثّل الصناديق المحيطة والأقنعة والهيئات جوانب مكملة للجسم البشري؛ وفرض الاتساق بينها يزيل الالتباسات التي تهيمن على المشاهد المكتظة. يربط إطار BBox–Mask–Pose بين الكشف وتقدير الوضعية والتجزئة في حلقة تكرارية، حيث تُستخدم كل تنبؤات لتحسين الأخرى. يضيف ProbPose عدم يقين مُعايرًا ونمذجة للرؤية والحضور، ما يثبّت النقاط الرئيسية تحت الحجب والقص. يجمع PMPose بين النمذجة الاحتمالية وتكييف القناع، ما يمكّن تقدير وضعية علوي متين في التفاعلات الكثيفة. يتخصص SAM-pose2seg في تكييف SAM لتجزئة البشر الموجّهة بالهيئة، فيبسّط التلميحات ويحسّن جودة الأقنعة في الحشود. تشكل هذه المكوّنات معًا BBoxMaskPose v2، وتقدّم تحسينات واضحة في فصل الأشخاص المتداخلين وتحقق نتائج رائدة على COCO وOCHuman وكذلك في تقدير الوضعية ثلاثي الأبعاد. وهي أول طريقة تحقق نتائج تتجاوز 50 AP على OCHuman. تُظهر هذه العمل أن التكييف المتبادل المنظّم لنماذج صغيرة متخصصة قد يكون أكثر فعالية من توسيع نماذج أساسية كبيرة مشتركة الميزات ومركّزة على البشر.
جميع المكوّنات جزء من قاعدة الكود على GitHub.
BBox-Mask-Pose
حلقة تكرارية للكشف وتقدير الوضعية وتجزئة الكائنات، حيث تُكيَّف كل تنبؤات صراحة على الأخرى. بفرض الاتساق بين التمثيلات، تُصحّح الحلقة الأخطاء تدريجيًا، وتفصل الأشخاص المتداخلين، وتستعيد الحالات المفقودة.
PMPose
مُقدِّر وضعية ثنائي الأبعاد من الأعلى إلى الأسفل يجمع بين تكييف القناع وتمثيل احتمالي للنقاط الرئيسية، ويحقق أداءً رائدًا بين طرق هذا النوع، خصوصًا في المشاهد المكتظة.
SAM-pose2seg
نموذج تجزئة كائنات موجه بالهيئة يكيّف SAM لتجزئة الأشخاص من نقاط هيكلية ثنائية الأبعاد. من خلال مواءمة التلميحات والمفكك مع إشارات الهيئة، ينتج أقنعة أنظف وأكثر استقرارًا في المشاهد المكتظة.
مجموعة بيانات OCHuman-Pose
بيانات متعددة الأشخاص لسيناريوهات ازدحام صعبة. توسعة لمجموعة بيانات OCHuman مع تعليقات وضعية ثنائية الأبعاد لكل الأشخاص المرئيين، بما في ذلك الحالات التي تم تجاهلها سابقًا. تمكّن من تقييم أدق للكشف وتقدير الوضعية مقارنةً بـ OCHuman الأصلي.
تُستضاف مجموعة بيانات OCHuman-Pose على Hugging Face. حمّل الملفات من الرابط أدناه.
مقارنة بين كشف وتقسيم RTMDet (يسار) وBBox-Mask-Pose (يمين). يحسّن BMP أقنعة التجزئة للمُكشّف المعطى، خصوصًا للأجزاء المنفصلة مثل الأطراف. كما يكتشف BBox-Mask-Pose العدد الصحيح من الأشخاص حتى في المشاهد ذات التداخل الشديد للصناديق المحيطة.
@InProceedings{BMPv2,
author = {Purkrabek, Miroslav and Kolomiiets, Constantin and Matas, Jiri},
title = {BBoxMaskPose v2: Expanding Mutual Conditioning to 3D},
booktitle = {arXiv preprint arXiv:to be added},
year = {2026}
}
@InProceedings{Purkrabek2025ICCV,
author = {Purkrabek, Miroslav and Matas, Jiri},
title = {Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle},
booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)},
month = {October},
year = {2025}
}
@InProceedings{Kolomiiets2026CVWW,
author = {Kolomiiets, Constantin and Purkrabek, Miroslav and Matas, Jiri},
title = {SAM-pose2seg: Pose-Guided Human Instance Segmentation in Crowds},
booktitle = {Computer Vision Winter Workshop (CVWW)},
year = {2026}
}