Kontrola exportu má obrovský dopad, zejména u modelů založených na MLA.
Vezměme si například K2/2.5, který už snížil num_heads na 64, ale výpočetní intenzita pro FP8 KVCache je stále ≈2×2×64=256 FLOP/bajt.
H20 má jen 148TFLOPS výpočetní výkon BF16.
Maximální šířka pásma je pouze 592GB/s.
Trénovali jsme humanoida s obratnýma rukama 22 stupňů F, aby skládal modely aut, obsluhoval stříkačky, třídil pokerové karty, skládal a roloval košile – to vše jsme se naučili především z 20 000+ hodin egocentrického lidského videa bez robota v smyčce.
Lidé jsou nejškálovatelnějším ztělesněním na planetě. Objevili jsme téměř dokonalý log-lineární škálovací zákon (R² = 0,998) mezi lidským objemem videa a ztrátou při predikci akcí, a tato ztráta přímo předpovídá úspěšnost reálných robotů.
Humanoidní roboti budou konečnou hrou, protože jsou praktickým tvarem s minimálním rozdílem v ztělesnění oproti lidem. Nazvěme to Hořkou lekcí robotického hardwaru: kinematická podobnost nám umožňuje jednoduše přesměrovat pohyb lidských prstů na obratné robotické klouby. Žádné naučené embeddingy, žádné složité přenosové algoritmy nepotřebují. Relativní pohyb zápěstí + přesměrované pohyby prstů 22-hloubky slouží jako jednotný akční prostor, který pokračuje od předtréninku až po robotické provedení.
Náš recept se jmenuje "EgoScale":
- Předtrénink GR00T N1.5 na 20 000 hodinách lidského videa, během tréninku s pouhými 4 hodinami (!) dat o robotické hře pomocí Sharpa rukou. 54 % zisku oproti tréninku od začátku v 5 vysoce obratných úkolech.
- Nejpřekvapivější výsledek: *jediná* teleop ukázka stačí k naučení dosud neviděného úkolu. Náš recept umožňuje extrémní efektivitu dat.
- Ačkoli předtrénujeme v prostoru kloubů rukou 22 stupňů F, politika se přenáší na Unitree G1 s trojprstými rukama 7 stupňů hloubky. Zisk 30%+ oproti tréninku pouze na G1 datech.
Cesta k robotické obratnosti byla škálovatelná už nikdy nebyla s roboty. Vždycky jsme to byli my.
Hloubkové ponoření do vlákna: