Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jim Fan
NVIDIA Robotik Direktörü ve Seçkin Bilim İnsanı. GEAR laboratuvarının Eş Lideri. Fiziksel AGI çözme, her seferinde bir motor. Stanford Ph.D. OpenAI'nin 1. stajyeri.
22 DoF becerikli ellere sahip bir insansı model arabaları monte etmesi, şırıngaları kullanması, poker kartlarını sıralaması, gömlek katlaması ve yuvarlanması için eğittik; bunların hepsi esas olarak 20.000+ saatlik egosentrik insan videosundan öğrendik; hiçbir robot yoktu.
İnsanlar, gezegendeki en ölçeklenebilir vücut bulmuş haldir. İnsan video hacmi ile eylem tahmin kaybı arasında neredeyse mükemmel bir log-lineer ölçeklendirme yasası (R² = 0.998) keşfettik ve bu kayıp doğrudan gerçek robot başarı oranını öngörüyor.
İnsansı robotlar nihai oyun olacak, çünkü insanlardan en az beden farkına sahip pratik form faktörüdürler. Buna robot donanımının Acı Dersi diyebilirsiniz: kinematik benzerlik, insan parmak hareketini kolayca robot el eklemlerine yönlendirmemize olanak tanır. Öğrenilmiş gömme yok, süslü transfer algoritmalarına gerek yok. Göreceli bilek hareketi + yeniden hedeflenmiş 22-DoF parmak hareketleri, ön eğitimden robot uygulamasına kadar devam eden birleşik bir hareket alanı olarak hizmet eder.
Tarifimizin adı "EgoScale":
- GR00T N1.5'i 20K saatlik insan videosu ile ön eğitim, tren ortasında sadece 4 saat (!) robot oynatma verisi ile Sharpa elleriyle çalıştırmak. %54, sıfırdan 5 çok çevik görevde antrenman yapmaya göre kazanç.
- En şaşırtıcı sonuç: *tek* teleop demo, daha önce hiç görülmemiş bir görevi öğrenmek için yeterlidir. Tarifimiz aşırı veri verimliliği sağlıyor.
- 22 DoF el eklem alanında ön eğitim yapsak da, politika 7 DoF üç parmak elli Unitree G1'e aktarılır. Sadece G1 verisiyle eğitime göre %30+ kazanç.
Robot çevikliğine giden ölçeklenebilir yol hiç robot olmamıştı. Hep bizdik.
Konuda derinlemesine incelemeler:
198
DreamDojo'yu duyuruyoruz: Robot motor kontrollerini alıp geleceği piksellerle üreten açık kaynaklı, etkileşimli dünya modelimiz. Ne motor, ne mesh, ne de el yazısı dinamikler. Bu Simülasyon 2.0. Robotiklerin acı ders hapını alma zamanı.
Gerçek dünya robot öğrenimi, zaman, aşınma, güvenlik ve sıfırlamalar nedeniyle darboğaz kalıyor. Fiziksel Yapay Zeka'nın ön eğitim hızında hareket etmesini istiyorsan, mümkün olduğunca az insan mühendisliği ile ön eğitim ölçeğine uyum sağlayan bir simülatörüne ihtiyacımız var.
Temel içgörülerimiz: (1) insan bencil videoları, birinci şahıs fiziğin ölçeklenebilir bir kaynağıdır; (2) gizli eylemler onları farklı donanımlarda "robot tarafından okunabilir" hale getirir; (3) Gerçek zamanlı çıkarım, canlı teleop, politika değerlendirmesi ve test zamanı planlamasını *bir rüyanın* içinde açar.
44K saatlik insan videosuyla önceden eğitim yapıyoruz: ucuz, bol ve hiç robot döngüsü olmadan toplanmış bir video. İnsanlar zaten kombinatoriği keşfetti: kavrıyoruz, döküyoruz, katlıyoruz, birleştiriyoruz, başarısız oluyoruz, yeniden deniyoruz—dağınık sahnelerde, değişen bakış açılarında, değişen ışıkta ve saatlerce süren görev zincirlerinde—hiçbir robot filosunun karşılayamayacağı bir ölçekte. Eksik parça: bu videoların aksiyon etiketi yok. Bu yüzden gizli eylemleri tanıtıyoruz: videolardan doğrudan çıkarılan, "dünya devletleri arasında neler değişti" ve altta yatan donanımı bilmeden yakalayan birleşik bir temsil. Bu, motor komutlarıyla birlikte geliyormuş gibi herhangi bir birinci şahıs videoda eğitim yapmamıza olanak tanıyor.
Sonuç olarak, DreamDojo sıfır atışı hiçbir robot eğitim setinde görülmemiş nesnelere ve ortamlara genelleştiriyor, çünkü insanlar onları ilk olarak görmüştür.
Sonra, her robotun özel donanımına uyması için post-eğitim yapıyoruz. Bunu "dünyanın nasıl göründüğünü ve davrandığını" "bu özel robotun nasıl hareket ettiğinden" ayırmak olarak düşünün. Temel model genel fiziksel kurallara uyar, ardından robotun benzersiz mekaniklerine "takılır". Bu, Unreal Engine'e yeni bir karakter ve sahne varlıkları yüklemek gibi, ama gradyan inişiyle ve eğitim sonrası veri setinin çok ötesine genelleştiriyor.
Bir dünya simülatörü ancak döngüyü kapatacak kadar hızlı çalışıyorsa faydalıdır. 10 FPS hızında çalışan ve bir dakikadan fazla süreyle sabit olan gerçek zamanlı DreamDojo versiyonunu eğitiyoruz. Bu heyecan verici olanakları açar:
- Canlı teleoperasyon *içinde* bir rüya. Bir VR kontrolcüsü bağlayın, DreamDojo'ya eylemleri akın ve sanal bir robotu gerçek zamanlı teleop yapın. Bunu Unitree G1'de bir PICO kulaklık ve bir RTX 5090 ile gösteriyoruz.
- Politika değerlendirmesi. Gerçek dünyada değil, DreamDojo'da bir politika kontrol noktası karşılaştırabilirsiniz. Simüle edilen başarı oranları gerçek dünya sonuçlarıyla güçlü şekilde korelasyonludur - kontrol noktalarını tek bir motor yakmadan sıralayacak kadar doğrudur.
- Model tabanlı planlama. Birden fazla eylem önerisi örnekleyin → hepsini paralel olarak simüle edin → en iyi geleceği seçin. Bir meyve paketleme görevinde kutudan çıktığı gibi +%17 gerçek dünya başarısı elde eder.
Her şeyi açık kaynaklı olarak kullanıyoruz!! Ağırlıklar, kod, eğitim sonrası veri seti, değerlendirme seti ve çoğaltılması gereken tonlarca detay içeren beyaz kitap. DreamDojo, NVIDIA Cosmos tabanlı ve o da açık ağırlıklı bir sistemdir.
2026, fiziksel yapay zeka için Dünya Modelleri yılıdır. Bizimle birlikte inşa etmenizi istiyoruz. İyi ölçeklendirmeler!
Başlıktaki bağlantılar:
374
En İyiler
Sıralama
Takip Listesi

