🦾معلم بارز للروبوتات📷 مفتوحة المصدر: pi0 و pi0.5 by @physical_int موجودان الآن على @huggingface ، ويتم نقلهما بالكامل إلى PyTorch في @LeRobotHF والتحقق من صحتهما جنبا إلى جنب مع OpenPI للجميع لتجربتها وضبطها ونشرها في الروبوتات الخاصة بهم! كما هو موضح في الذكاء البدني ، فإن π₀.₅ هو نموذج للرؤية واللغة والعمل يمثل تطورا كبيرا من π₀ لمواجهة تحد كبير في الروبوتات: تعميم العالم المفتوح. بينما يمكن للروبوتات أداء مهام رائعة في بيئات خاضعة للرقابة ، تم تصميم π₀.₅ للتعميم على بيئات ومواقف جديدة تماما لم يتم رؤيتها من قبل أثناء التدريب. يجب أن يحدث التعميم على مستويات متعددة: - المستوى المادي: فهم كيفية التقاط ملعقة (بالمقبض) أو صفيحة (من الحافة) ، حتى مع وجود أشياء غير مرئية في البيئات المزدحمة - المستوى الدلالي: فهم دلالات المهام ، ومكان وضع الملابس والأحذية (سلة الغسيل ، وليس على السرير) ، وما هي الأدوات المناسبة لتنظيف الانسكابات - المستوى البيئي: التكيف مع بيئات العالم الحقيقي "الفوضوية" مثل المنازل ومحلات البقالة والمكاتب والمستشفيات الابتكار المذهل في π₀.₅ هو التدريب المشترك على مصادر البيانات غير المتجانسة. يتعلم النموذج من: - بيانات الويب متعددة الوسائط: التسمية التوضيحية للصور ، والإجابة المرئية على الأسئلة ، واكتشاف الكائنات - تعليمات شفهية: يقوم البشر بتدريب الروبوتات من خلال مهام معقدة خطوة بخطوة - أوامر المهام الفرعية: تسميات السلوك الدلالي عالية المستوى (على سبيل المثال ، "التقط الوسادة" لسرير غير مرتب) - بيانات الروبوت عبر التجسيد: بيانات من منصات الروبوت المختلفة ذات القدرات المختلفة - بيانات متعددة البيئات: روبوتات ثابتة منتشرة في العديد من المنازل المختلفة - بيانات التلاعب بالأجهزة المحمولة: ~ 400 ساعة من عروض الروبوت المحمول يخلق هذا المزيج التدريبي المتنوع "منهجا منهجيا" يتيح التعميم عبر المستويات المادية والبصرية والدلالية في وقت واحد. شكرا جزيلا لفريق @physical_int والمساهمين نموذج: ليروبوت: