Exportkontroll har en enorm påverkan, särskilt för MLA-baserade modeller.
Ta K2/2.5 som exempel, den har redan minskat num_heads till 64, men beräkningsintensiteten för FP8 KVCache är fortfarande ≈2×2×64=256FLOP/Byte.
H20 har bara 148TFLOPS BF16-beräkning.
Maxbandbredden är bara 592GB/s.
Vi tränade en humanoid med 22-djups fingerfärdiga händer för att montera modellbilar, använda sprutor, sortera pokerkort, vika/rulla skjortor, allt lärt sig främst från 20 000+ timmar egocentrisk mänsklig video utan någon robot i loopen.
Människor är den mest skalbara förkroppsligandet på planeten. Vi upptäckte en nästan perfekt log-linjär skalningslag (R² = 0,998) mellan mänsklig videovolym och förlust av handlingsförutsägelse, och denna förlust förutspår direkt framgångsgraden för verkliga robotar.
Humanoida robotar kommer att vara slutmålet, eftersom de är den praktiska formfaktorn med minimal förkroppsligandeskillnad jämfört med människor. Kalla det robothårdvarans bittra läxa: den kinematiska likheten låter oss helt enkelt rikta om människans fingerrörelser till smidiga robothandleder. Inga inlärda embeddings, inga avancerade överföringsalgoritmer behövs. Relativ handledsrörelse + omriktade 22-djupviddsfingrarrörelser fungerar som ett enhetligt handlingsutrymme som går från förträning till robotutförande.
Vårt recept heter "EgoScale":
- Pre-train GR00T N1.5 på 20 000 timmar mänsklig video, mitt i tåget med endast 4 timmar (!) robotspeldata med Sharpa-händer. 54% vinst jämfört med träning från grunden över 5 mycket smidiga uppgifter.
- Mest överraskande resultat: en *enda* teleop-demo räcker för att lära sig en aldrig tidigare skådad uppgift. Vårt recept möjliggör extrem dataeffektivitet.
- Även om vi förtränar i 22-DoF handledsutrymme, överförs policyn till en Unitree G1 med 7-DoF tri-finger-händer. 30%+ vinster jämfört med träning enbart på G1-data.
Den skalbara vägen till robotsmidighet var aldrig fler robotar. Det var alltid vi.
Djupdykningar i tråden: