Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jim Fan
Direktur Robotika & Ilmuwan Terkemuka NVIDIA. Co-Lead lab GEAR. Memecahkan AGI Fisik, satu motor pada satu waktu. Stanford Ph.D. Magang pertama OpenAI.
Kami melatih humanoid dengan tangan cekatan 22-DoF untuk merakit mobil model, mengoperasikan jarum suntik, menyortir kartu poker, melipat/menggulung kemeja, semuanya belajar terutama dari 20.000+ jam video manusia egosentris tanpa robot dalam lingkaran.
Manusia adalah perwujudan yang paling terukur di planet ini. Kami menemukan hukum penskalaan log-linear yang hampir sempurna (R² = 0,998) antara volume video manusia dan kehilangan prediksi tindakan, dan kerugian ini secara langsung memprediksi tingkat keberhasilan robot nyata.
Robot humanoid akan menjadi permainan akhir, karena mereka adalah faktor bentuk praktis dengan celah perwujudan minimal dari manusia. Sebut saja Pelajaran Pahit dari perangkat keras robot: kesamaan kinematik memungkinkan kita dengan mudah menargetkan ulang gerakan jari manusia ke sendi tangan robot yang cekatan. Tidak ada penyematan yang dipelajari, tidak diperlukan algoritma transfer mewah. Gerakan pergelangan tangan relatif + tindakan jari 22-DoF yang ditargetkan ulang berfungsi sebagai ruang aksi terpadu yang berlangsung dari pra-pelatihan hingga eksekusi robot.
Resep kami disebut "EgoScale":
- Pra-latih GR00T N1.5 pada 20K jam video manusia, di tengah latihan dengan hanya 4 jam (!) data pemutaran robot dengan tangan Sharta. Keuntungan 54% dibandingkan pelatihan dari awal di 5 tugas yang sangat cekatan.
- Hasil yang paling mengejutkan: demo teleop *tunggal* sudah cukup untuk mempelajari tugas yang belum pernah dilihat sebelumnya. Resep kami memungkinkan efisiensi data yang ekstrem.
- Meskipun kami melakukan pra-pelatihan di ruang sambungan tangan 22-DoF, kebijakan ini ditransfer ke Unitree G1 dengan tangan tiga jari 7-DoF. 30%+ keuntungan dibandingkan pelatihan pada data G1 saja.
Jalan yang dapat diskalakan menuju ketangkasan robot tidak pernah lebih robot. Itu selalu kami.
Penyelaman mendalam dalam benang:
192
Mengumumkan DreamDojo: model dunia interaktif sumber terbuka kami yang mengambil kontrol motor robot dan menghasilkan masa depan dalam piksel. Tidak ada mesin, tidak ada jerat, tidak ada dinamika yang ditulis tangan. Ini adalah Simulasi 2.0. Saatnya robotika mengambil pil pelajaran pahit.
Pembelajaran robot dunia nyata terhambat oleh waktu, keausan, keamanan, dan pengaturan ulang. Jika kita ingin AI Fisik bergerak dengan kecepatan prapelatihan, kita memerlukan simulator yang beradaptasi dengan skala prapelatihan dengan rekayasa manusia sesedikit mungkin.
Wawasan utama kami: (1) video egosentris manusia adalah sumber fisika orang pertama yang dapat diskalakan; (2) tindakan laten membuatnya "dapat dibaca robot" di berbagai perangkat keras; (3) Inferensi real-time membuka teleop langsung, perencanaan polis, dan perencanaan waktu pengujian *di dalam* mimpi.
Kami berlatih terlebih dahulu pada video manusia selama 44 ribu jam: murah, berlimpah, dan dikumpulkan tanpa robot-in-the-loop. Manusia telah mengeksplorasi kombinatorika: kita menggenggam, menuangkan, melipat, merakit, gagal, mencoba lagi—melintasi adegan yang berantakan, sudut pandang yang berubah, mengubah cahaya, dan rantai tugas selama satu jam—pada skala yang tidak dapat ditandingi oleh armada robot. Bagian yang hilang: video ini tidak memiliki label tindakan. Jadi kami memperkenalkan tindakan laten: representasi terpadu yang disimpulkan langsung dari video yang menangkap "apa yang berubah di antara negara-negara dunia" tanpa mengetahui perangkat keras yang mendasarinya. Ini memungkinkan kita berlatih pada video orang pertama apa pun seolah-olah dilengkapi dengan perintah motor terpasang.
Akibatnya, DreamDojo menggeneralisasi zero-shot ke objek dan lingkungan yang tidak pernah terlihat di set pelatihan robot mana pun, karena manusia melihatnya lebih dulu.
Selanjutnya, kami melatih setiap robot agar sesuai dengan perangkat keras spesifiknya. Anggap saja sebagai memisahkan "bagaimana dunia terlihat dan berperilaku" dari "bagaimana robot khusus ini bergerak." Model dasar mengikuti aturan fisik umum, kemudian "terjepit" pada mekanisme unik robot. Ini seperti memuat aset karakter dan adegan baru ke Unreal Engine, tetapi dilakukan melalui penurunan gradien dan menggeneralisasi jauh melampaui kumpulan data pasca-pelatihan.
Simulator dunia hanya berguna jika berjalan cukup cepat untuk menutup lingkaran. Kami melatih versi real-time DreamDojo yang berjalan pada 10 FPS, stabil selama lebih dari satu menit peluncuran terus menerus. Ini membuka kemungkinan menarik:
- Operasi langsung *di dalam* mimpi. Hubungkan pengontrol VR, streaming aksi ke DreamDojo, dan teleop robot virtual secara real time. Kami mendemonstrasikan ini di Unitree G1 dengan headset PICO dan satu RTX 5090.
- Evaluasi kebijakan. Anda dapat membandingkan pos pemeriksaan kebijakan di DreamDojo alih-alih dunia nyata. Tingkat keberhasilan simulasi sangat berkorelasi dengan hasil dunia nyata - cukup akurat untuk memberi peringkat pos pemeriksaan tanpa membakar satu motor pun.
- Perencanaan berbasis model. Sampel beberapa proposal tindakan → simulasikan semuanya secara paralel → memilih masa depan terbaik. Memperoleh +17% kesuksesan dunia nyata di luar kotak pada tugas pengemasan buah.
Kami membuka sumber semuanya !! Bobot, kode, himpunan data pasca-pelatihan, set eva, dan whitepaper dengan banyak detail untuk direproduksi. DreamDojo didasarkan pada NVIDIA Cosmos, yang juga berbobot terbuka.
2026 adalah tahun Model Dunia untuk AI fisik. Kami ingin Anda membangun bersama kami. Selamat penskalaan!
Tautan di utas:
369
Teratas
Peringkat
Favorit

