Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Construindo @EurekaLabsAI. Anteriormente Diretor de AI @ Tesla, equipe fundadora @ OpenAI, CS231n/PhD @ Stanford. Eu gosto de treinar grandes redes neurais profundas.
O treinamento FP8 foi ativado para uma melhora de +4,3% para "tempo até GPT-2", reduzindo para 2,91 horas agora. Também vale notar que, se você usar preços de instâncias à vista do 8XH100, essa reprodução GPT-2 custa apenas ~$20. Então isso é empolgante -
GPT-2 (há 7 anos): perigoso demais para liberar.
GPT-2 (hoje): novo MNIST! :)
Com certeza isso pode ir bem abaixo de 1 hora.
Mais algumas palavras sobre FP8, foi um pouco mais complicado do que eu esperava e demorei um pouco para pegá-lo, e mesmo agora não tenho 100% de certeza se é uma boa ideia por causa do suporte geral reduzido. No papel, FP8 no H100 é 2X o FLOPS, mas na prática é bem menor. Não estamos 100% limitados ao cálculo na execução de treino propriamente dita, há sobrecarga extra devido a conversões adicionais de escala, os GEMMs não são grandes o suficiente na escala GPT-2 para tornar a sobrecarga claramente válida, e claro - em menor precisão a qualidade de cada etapa é menor. Para a receita de escalonamento por rowwise, as curvas de perda fp8 vs bf16 estavam bem próximas, mas a diferença estava passando mais devagar. Para a escala tensorial, as curvas de perda se separaram mais (ou seja, cada passo é de qualidade pior), mas agora pelo menos temos um aumento de aceleração (~7,3%). Você pode ingenuamente recuperar o desempenho ao avançar no horizonte de treinamento (você treina para mais passos, mas cada passo é mais rápido) e torcer para que no gol você saia vencedor. Neste caso e no geral, brincando um pouco com essas receitas e horizontes de treino, até agora acabei com ~5% de aceleração. Torchao no artigo deles relata um aumento de velocidade de treinamento Llama3-8B fp8 de 25% (contra meus ~7,3% sem considerar a capacidade), o que é mais próximo do que eu esperava inicialmente, embora Llama3-8B seja um modelo muito maior. Provavelmente isso não é o fim da saga FP8. Deveria ser possível melhorar as coisas escolhendo exatamente em quais camadas aplicar e sendo mais cuidadoso com os números na rede.

Andrej Karpathy1 de fev., 04:55
o nanochat agora pode treinar LLM de grau GPT-2 por <<$100 (~$73, 3 horas em um único nó 8XH100).
GPT-2 é apenas meu LLM favorito porque é a primeira vez que a pilha de LLMs se reúne de forma reconhecidamente moderna. Então, virou uma obsessão meio estranha e duradoura para mim treinar um modelo com capacidade GPT-2, mas por muito menos dinheiro, com o benefício de ~7 anos de progresso. Em particular, suspeitava que hoje seria possível treinar um por <<$100.
Originalmente em 2019, o GPT-2 foi treinado pela OpenAI em chips 32 TPU v3 durante 168 horas (7 dias), com $8/hora/TPUv3 na época, por um custo total de aproximadamente $43K. Ele alcança 0,256525 na pontuação CORE, que é uma métrica de conjunto introduzida no artigo do DCLM em 22 avaliações como ARC/MMLU/etc.
Com as últimas melhorias incorporadas ao nanochat (muitas delas originadas em repositórios nanoGPT modificados), agora consigo alcançar uma pontuação CORE mais alta em 3,04 horas (~$73) em um único nó 8XH100. Isso representa uma redução de custo de 600 vezes em 7 anos, ou seja, o custo para treinar o GPT-2 cai aproximadamente 2,5 vezes a cada ano. Acho que isso provavelmente é uma subestimação porque ainda estou encontrando melhorias com relativa regularidade e tenho um acúmulo de ideias para tentar.
Um post mais longo, com muitos detalhes das otimizações envolvidas e dicas sobre como reproduzir, está aqui:
Inspirado pelo modded-nanogpt, também criei um ranking para o "time to GPT-2", onde esse primeiro modelo "Jan29" é a entrada #1 com 3,04 horas. Vai ser divertido repetir isso e agradeço ajuda! Minha esperança é que o nanochat possa crescer e se tornar um autênseo experimental de LLM muito bonito, limpo e ajustado para prototipagem de ideias, para se divertir e, claro, para aprender.
As maiores melhorias das coisas que funcionaram logo de cara e simplesmente produziram ganhos imediatamente foram: 1) Flash Attention 3 kernels (mais rápidos e permitem que window_size kwarg obtenha padrões de atenção alternados), otimizador Muon (tentei por ~1 dia deletá-lo e só usei o AdamW, mas não consegui), caminhos residuais e conexões de salto bloqueados por escalares aprendíveis, e embeddings de valor. Havia muitas outras coisas menores que se acumulavam.
Imagem: um deleite visual semi-relacionado de derivar as leis de escala para a minissérie atual do modelo nanochat, bonito e satisfatório!

159
o nanochat agora pode treinar LLM de grau GPT-2 por <<$100 (~$73, 3 horas em um único nó 8XH100).
GPT-2 é apenas meu LLM favorito porque é a primeira vez que a pilha de LLMs se reúne de forma reconhecidamente moderna. Então, virou uma obsessão meio estranha e duradoura para mim treinar um modelo com capacidade GPT-2, mas por muito menos dinheiro, com o benefício de ~7 anos de progresso. Em particular, suspeitava que hoje seria possível treinar um por <<$100.
Originalmente em 2019, o GPT-2 foi treinado pela OpenAI em chips 32 TPU v3 durante 168 horas (7 dias), com $8/hora/TPUv3 na época, por um custo total de aproximadamente $43K. Ele alcança 0,256525 na pontuação CORE, que é uma métrica de conjunto introduzida no artigo do DCLM em 22 avaliações como ARC/MMLU/etc.
Com as últimas melhorias incorporadas ao nanochat (muitas delas originadas em repositórios nanoGPT modificados), agora consigo alcançar uma pontuação CORE mais alta em 3,04 horas (~$73) em um único nó 8XH100. Isso representa uma redução de custo de 600 vezes em 7 anos, ou seja, o custo para treinar o GPT-2 cai aproximadamente 2,5 vezes a cada ano. Acho que isso provavelmente é uma subestimação porque ainda estou encontrando melhorias com relativa regularidade e tenho um acúmulo de ideias para tentar.
Um post mais longo, com muitos detalhes das otimizações envolvidas e dicas sobre como reproduzir, está aqui:
Inspirado pelo modded-nanogpt, também criei um ranking para o "time to GPT-2", onde esse primeiro modelo "Jan29" é a entrada #1 com 3,04 horas. Vai ser divertido repetir isso e agradeço ajuda! Minha esperança é que o nanochat possa crescer e se tornar um autênseo experimental de LLM muito bonito, limpo e ajustado para prototipagem de ideias, para se divertir e, claro, para aprender.
As maiores melhorias das coisas que funcionaram logo de cara e simplesmente produziram ganhos imediatamente foram: 1) Flash Attention 3 kernels (mais rápidos e permitem que window_size kwarg obtenha padrões de atenção alternados), otimizador Muon (tentei por ~1 dia deletá-lo e só usei o AdamW, mas não consegui), caminhos residuais e conexões de salto bloqueados por escalares aprendíveis, e embeddings de valor. Havia muitas outras coisas menores que se acumulavam.
Imagem: um deleite visual semi-relacionado de derivar as leis de escala para a minissérie atual do modelo nanochat, bonito e satisfatório!

567
Melhores
Classificação
Favoritos
