Treinamos um humanoide com mãos habilidosas de 22 cadências de vida para montar carros em miniatura, operar seringas, separar cartas de pôquer, dobrar e enrolar camisas, tudo aprendendo principalmente com 20.000+ horas de vídeo humano egocêntrico sem nenhum robô no circuito. Os humanos são a personificação mais escalável do planeta. Descobrimos uma lei de escala quase perfeita log-linear (R² = 0,998) entre volume de vídeo humano e perda de previsão de ação, e essa perda prevê diretamente a taxa de sucesso de robôs reais. Robôs humanóides serão o objetivo final, porque são o fator prático com uma diferença mínima de incorporação em relação aos humanos. Chame isso de a Lição Amarga do hardware robótico: a semelhança cinemática nos permite simplesmente redirecionar o movimento dos dedos humanos para as articulações digitais dos robôs. Sem embeddings aprendidos, sem algoritmos de transferência sofisticados necessários. Movimento relativo do punho + ações redirecionadas dos dedos com 22-DoF servem como um espaço de ação unificado que vai do pré-treinamento até a execução do robô. Nossa receita se chama "EgoScale": - GR00T N1.5 pré-treinamento em 20 mil horas de vídeo humano, no meio do trem com apenas 4 horas (!) de dados de brincadeira robótica com as mãos Sharpa. 54% de ganhos em relação ao treinamento do zero em 5 tarefas altamente habilidosas. - Resultado mais surpreendente: uma *única* demonstração teleop é suficiente para aprender uma tarefa nunca antes vista. Nossa receita permite uma eficiência extrema dos dados. - Embora pré-treinemos no espaço articular da mão 22-DoF, a política é transferida para um Unitree G1 com mãos tri-dedos 7-DoF. 30%+ ganhos em relação ao treinamento apenas com dados G1. O caminho escalável para a destreza robótica nunca foi mais robô. Sempre fomos nós. Análises profundas no tópico: