İhracat kontrolü, özellikle MLA tabanlı modeller için büyük bir etkiye sahip.
Örneğin K2/2.5'i ele alalım, num_heads zaten 64'e düşürmüştü, ancak FP8 KVCache için hesaplama yoğunluğu hâlâ ≈2×2×64=256FLOP/Bayt.
H20 sadece 148TFLOPS BF16 hesaplamaya sahip.
Maksimum bant genişliği sadece 592GB/s.
22 DoF becerikli ellere sahip bir insansı model arabaları monte etmesi, şırıngaları kullanması, poker kartlarını sıralaması, gömlek katlaması ve yuvarlanması için eğittik; bunların hepsi esas olarak 20.000+ saatlik egosentrik insan videosundan öğrendik; hiçbir robot yoktu.
İnsanlar, gezegendeki en ölçeklenebilir vücut bulmuş haldir. İnsan video hacmi ile eylem tahmin kaybı arasında neredeyse mükemmel bir log-lineer ölçeklendirme yasası (R² = 0.998) keşfettik ve bu kayıp doğrudan gerçek robot başarı oranını öngörüyor.
İnsansı robotlar nihai oyun olacak, çünkü insanlardan en az beden farkına sahip pratik form faktörüdürler. Buna robot donanımının Acı Dersi diyebilirsiniz: kinematik benzerlik, insan parmak hareketini kolayca robot el eklemlerine yönlendirmemize olanak tanır. Öğrenilmiş gömme yok, süslü transfer algoritmalarına gerek yok. Göreceli bilek hareketi + yeniden hedeflenmiş 22-DoF parmak hareketleri, ön eğitimden robot uygulamasına kadar devam eden birleşik bir hareket alanı olarak hizmet eder.
Tarifimizin adı "EgoScale":
- GR00T N1.5'i 20K saatlik insan videosu ile ön eğitim, tren ortasında sadece 4 saat (!) robot oynatma verisi ile Sharpa elleriyle çalıştırmak. %54, sıfırdan 5 çok çevik görevde antrenman yapmaya göre kazanç.
- En şaşırtıcı sonuç: *tek* teleop demo, daha önce hiç görülmemiş bir görevi öğrenmek için yeterlidir. Tarifimiz aşırı veri verimliliği sağlıyor.
- 22 DoF el eklem alanında ön eğitim yapsak da, politika 7 DoF üç parmak elli Unitree G1'e aktarılır. Sadece G1 verisiyle eğitime göre %30+ kazanç.
Robot çevikliğine giden ölçeklenebilir yol hiç robot olmamıştı. Hep bizdik.
Konuda derinlemesine incelemeler: