المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jim Fan
مدير الروبوتات والعالم المتميز في NVIDIA. قائد مشارك لمختبر GEAR. حل AGI المادي ، محرك واحد في كل مرة. دكتوراه في جامعة ستانفورد المتدرب الأول في OpenAI.
قمنا بتدريب بشري يدين ماهرة بقوة 22 درجة على تجميع نماذج السيارات، وتشغيل الحقن، وفرز بطاقات البوكر، وطي/لف القمصان، وكل ذلك تعلمنا بشكل أساسي من 20,000+ ساعة من الفيديو البشري الأناني دون وجود روبوت في الدائرة.
البشر هم أكثر تجسيد قابل للتوسع على وجه الأرض. اكتشفنا قانون تحجيم لوغاريتمي خطي شبه مثالي (R² = 0.998) بين حجم الفيديو البشري وفقدان توقع الحركة، وهذا الخسارة يتنبأ مباشرة بمعدل نجاح الروبوتات الحقيقية.
الروبوتات البشرية ستكون الهدف النهائي، لأنها تشكل الشكل العملي مع فجوة تجسيد قليلة جدا عن البشر. سميها الدرس المر لأجهزة الروبوتات: التشابه الحركي يسمح لنا ببساطة بإعادة توجيه حركة الأصابع البشرية إلى مفاصل يد الروبوتات الماهرة. لا تضمينات مكتسبة، ولا خوارزميات نقل معقدة مطلوبة. حركة المعصم النسبية + حركات الأصابع المعاد توجيهها بطول 22 درجة أصابع تعمل كمساحة عمل موحدة تنتقل من التدريب المسبق إلى تنفيذ الروبوتات.
وصفتنا تسمى "إيغوسكيل":
- GR00T N1.5 قبل التدريب على 20 ألف ساعة فيديو بشري، في منتصف القطار مع 4 ساعات (!) فقط من بيانات تشغيل الروبوتات بأيدي شاربا. 54٪ مكاسب مقارنة بالتدريب من الصفر عبر 5 مهام عالية المهارة.
- النتيجة الأكثر إثارة للدهشة: عرض تجريبي واحد من التليوب يكفي لتعلم مهمة لم تر من قبل. وصفتنا تمكن من كفاءة بيانات فائقة.
- على الرغم من أننا نتدرب مسبقا في مساحة مفصل اليد 22 درجة أصابع، إلا أن السياسة تنتقل إلى Unitree G1 مع أيدي ثلاثية الأصابع ب 7 DoF. 30٪+ مكاسب مقارنة بالتدريب بناء على بيانات G1 فقط.
الطريق القابل للتوسع إلى براعة الروبوتات لم يكن أبدا المزيد من الروبوتات. دائما كنا نحن.
غوص عميق في الموضوع:
196
الإعلان عن DreamDojo: نموذج العالم التفاعلي مفتوح المصدر الذي يأخذ تحكم محرك الروبوت ويولد المستقبل بالبكسل. لا محرك، لا شبكات، لا ديناميكيات مكتوبة يدويا. إنها المحاكاة 2.0. حان الوقت للروبوتات لتأخذ حبة الدرس المر.
تعلم الروبوتات في العالم الحقيقي يعاني من عنق زجاجة بسبب الزمن، والاستهلاك، والأمان، وإعادة الضبط. إذا أردنا أن يتحرك الذكاء الاصطناعي الفيزيائي بسرعة ما قبل التدريب، نحتاج إلى محاكي يتكيف مع نطاق التدريب المسبق بأقل قدر ممكن من الهندسة البشرية.
رؤانا الرئيسية: (1) الفيديوهات الأنانية البشرية مصدر قابل للتوسع لفيزياء منظور الشخص الأول؛ (2) تجعلها الأفعال الكامنة "قابلة للقراءة بواسطة الروبوتات" عبر أجهزة مختلفة؛ (3) الاستدلال في الوقت الحقيقي يفتح تخطيط الفحص المباشر عن بعد، وتقييم السياسات، وتخطيط وقت الاختبار *داخل* الحلم.
نحن نتدرب مسبقا على 44 ألف ساعة من الفيديوهات البشرية: رخيصة، وفيرة، ومجمعة بدون أي روبوت في الحلقة. لقد استكشف البشر بالفعل التركيبات: نحن نمسك، نصب، نطي، نجمع، نفشل، نعيد المحاولة — عبر مشاهد مزدحمة، وجهات نظر متغيرة، وضوء متغير، وسلاسل مهام تستمر لساعة—على نطاق لا يمكن لأي أسطول روبوتات أن يضاهيه. القطعة المفقودة: هذه الفيديوهات لا تحمل أي تسميات أكشن. لذا نقدم إجراءات كامنة: تمثيل موحد مستنتاج مباشرة من الفيديوهات يلتقط "ما تغير بين دول العالم" دون معرفة الأجهزة الأساسية. هذا يسمح لنا بالتدريب على أي فيديو من منظور الشخص الأول كما لو كان مرفقا بأوامر محركية.
نتيجة لذلك، تعمم دريم دوجو الطلقة الصفرية على الأشياء والبيئات التي لم تر في أي مجموعة تدريب روبوتات، لأن البشر هم من رأوها أولا.
بعد ذلك، نقوم بالتدريب اللاحق على كل روبوت ليتناسب مع أجهزته الخاصة. فكر في الأمر كفصل بين "كيف يبدو العالم ويتصرف" عن "كيف يعمل هذا الروبوت بالذات". النموذج الأساسي يتبع القواعد الفيزيائية العامة، ثم "ينتقلم" إلى آليات الروبوت الفريدة. يشبه الأمر تحميل شخصية جديدة وأصول مشهد في Unreal Engine، لكن يتم عبر تدرج تدرج ويعمم بكثير إلى ما بعد مجموعة البيانات بعد التدريب.
محاكي العالم مفيد فقط إذا كان يعمل بسرعة كافية لإغلاق الحلقة. نقوم بتدريب نسخة فورية من DreamDojo تعمل بسرعة 10 إطارات في الثانية، وتستقر لأكثر من دقيقة من النشر المستمر. هذا يفتح إمكانيات مثيرة:
- تشغيل مباشر عن بعد *داخل* حلم. قم بتوصيل وحدة تحكم VR، وبث الإجراءات إلى DreamDojo، وإرسال روبوت افتراضي في الوقت الحقيقي. نعرض هذا على Unitree G1 مع سماعة رأس PICO وبطاقة RTX 5090 واحدة.
- تقييم السياسات. يمكنك اختبار نقطة تفتيش للسياسة في DreamDojo بدلا من العالم الحقيقي. معدلات النجاح المحاكاة ترتبط ارتباطا وثيقا بنتائج العالم الحقيقي - دقيقة بما يكفي لترتيب نقاط التفتيش دون حرق أي محرك.
- التخطيط القائم على النماذج. قم بتجربة مقترحات عمل متعددة → محاكاتها جميعا بالتوازي → اختيار أفضل مستقبل. تحقق نجاحا حقيقيا بنسبة +17٪ من البداية في مهمة تعبئة الفواكه.
نحن نفتح المصدر كل شيء!! الأوزان، الكود، مجموعة البيانات بعد التدريب، مجموعة التقييم، والورقة البيضاء التي تحتوي على الكثير من التفاصيل التي يجب إعادة إنتاجها. DreamDojo مبني على NVIDIA Cosmos، الذي هو أيضا مفتوح الوزن.
عام 2026 هو عام نماذج العالم للذكاء الاصطناعي المادي. نريدكم أن تبنوا معنا. أتمنى لك توسعا سعيدا!
روابط في الموضوع:
373
الأفضل
المُتصدِّرة
التطبيقات المفضلة

