Eksportkontroll har stor betydning, spesielt for MLA-baserte modeller.
Ta K2/2.5 som eksempel, den har allerede redusert num_heads til 64, men beregningsintensiteten for FP8 KVCache er fortsatt ≈2×2×64=256FLOP/Byte.
H20 har bare 148TFLOPS BF16-beregning.
Maksimal båndbredde er bare 592GB/s.
Vi trente en humanoid med 22-dybdeskarpe hender til å sette sammen modellbiler, betjene sprøyter, sortere pokerkort, brette/rulle skjorter, alt lært hovedsakelig fra 20 000+ timer med egosentrisk menneskelig video uten noen robot i loopen.
Mennesker er den mest skalerbare legemliggjøringen på planeten. Vi oppdaget en nesten perfekt log-lineær skaleringslov (R² = 0,998) mellom menneskelig videovolum og tap av handlingsprediksjon, og dette tapet forutsier direkte suksessraten for ekte roboter.
Humanoide roboter vil være sluttspillet, fordi de er den praktiske formfaktoren med minimal inkarnasjonsforskjell fra mennesker. Kall det den bitre leksjonen om robotutstyr: den kinematiske likheten lar oss enkelt omdirigere menneskelig fingerbevegelse mot smidige robothåndledd. Ingen innlærte embeddings, ingen avanserte overføringsalgoritmer nødvendig. Relativ håndleddsbevegelse + retargeted 22-DoF fingerbevegelser fungerer som et samlet handlingsrom som går fra fortrening til robotutførelse.
Oppskriften vår heter "EgoScale":
- Pre-train GR00T N1.5 på 20 000 timer med menneskelig video, midt i toget med bare 4 timer (!) med robotspilldata med Sharpa-hender. 54 % gevinst sammenlignet med trening fra bunnen av på 5 svært smidige oppgaver.
- Mest overraskende resultat: en *enkelt* teleop-demo er tilstrekkelig for å lære en aldri før sett oppgave. Vår oppskrift muliggjør ekstrem dataeffektivitet.
- Selv om vi forhåndstrener i 22-DoF håndleddsrom, overføres policyen til en Unitree G1 med 7-DoF tri-finger hender. 30 %+ gevinst sammenlignet med trening kun på G1-data.
Den skalerbare veien til robotfingerferdighet var aldri flere roboter. Det var alltid oss.
Dypdykk i tråden: