Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ativou o treinamento fp8 para uma melhoria de +4,3% no "tempo até o GPT-2", agora reduzido para 2,91 horas. Também vale a pena notar que se você usar os preços de instâncias spot 8XH100, este repro do GPT-2 realmente custa apenas ~$20. Então isso é empolgante -
GPT-2 (há 7 anos): muito perigoso para ser lançado.
GPT-2 (hoje): novo MNIST! :)
Certamente isso pode ficar bem abaixo de 1 hora.
Algumas palavras sobre o fp8, foi um pouco mais complicado do que eu esperava e levei um tempo para alcançá-lo e mesmo agora não estou 100% certo se é uma boa ideia devido ao suporte geral reduzido. No papel, o fp8 no H100 é 2X os FLOPS, mas na prática é muito menos. Não estamos 100% limitados por computação na execução real do treinamento, há uma sobrecarga extra devido às conversões de escala adicionadas, os GEMMs não são grandes o suficiente na escala do GPT-2 para tornar a sobrecarga claramente válida, e claro - em precisões mais baixas a qualidade de cada passo é menor. Para a receita de escalonamento por linha, as curvas de perda do fp8 em comparação com bf16 estavam bastante próximas, mas estava avançando neto mais devagar. Para o escalonamento por tensor, as curvas de perda se separaram mais (ou seja, cada passo é de pior qualidade), mas agora pelo menos conseguimos um aumento de velocidade (~7,3%). Você pode recuperar a performance de forma ingênua aumentando o horizonte de treinamento (você treina por mais passos, mas cada passo é mais rápido) e esperar que no total você saia na frente. Neste caso e de forma geral, brincando com essas receitas e horizontes de treinamento um pouco, até agora acabei com um aumento de velocidade de ~5%. O torchao em seu artigo relata um aumento de velocidade de treinamento fp8 do Llama3-8B de 25% (contra meus ~7,3% sem levar em conta a capacidade), que está mais próximo do que eu esperava inicialmente, embora o Llama3-8B seja um modelo muito maior. Isso provavelmente não é o fim da saga do fp8. Deve ser possível melhorar as coisas escolhendo exatamente quais camadas aplicar e sendo mais cuidadoso com os números em toda a rede.
Top
Classificação
Favoritos
