DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Andrej Karpathy

Construyendo @EurekaLabsAI. Anteriormente Director de IA @ Tesla, equipo fundador @ OpenAI, CS231n/PhD @ Stanford. Me gusta entrenar grandes redes neuronales profundas.

Se habilitó el entrenamiento fp8 para una mejora del +4.3% en el "tiempo hasta GPT-2", ahora reducido a 2.91 horas. También vale la pena mencionar que si utilizas los precios de instancias spot 8XH100, este repro de GPT-2 realmente solo cuesta alrededor de ~$20. Así que esto es emocionante - GPT-2 (hace 7 años): demasiado peligroso para liberar. GPT-2 (hoy): ¡nuevo MNIST! :) Seguramente esto puede bajar bien por debajo de 1 hora. Unas palabras más sobre fp8, fue un poco más complicado de lo que anticipé y me tomó un tiempo llegar a ello y, incluso ahora, no estoy 100% seguro de si es una gran idea debido a la menor compatibilidad general. En teoría, fp8 en H100 es 2X los FLOPS, pero en la práctica es mucho menos. No estamos 100% limitados por el cómputo en la ejecución de entrenamiento real, hay un costo adicional por las conversiones de escala añadidas, los GEMMs no son lo suficientemente grandes en la escala de GPT-2 como para que el costo adicional valga claramente la pena, y, por supuesto, a menor precisión, la calidad de cada paso es menor. Para la receta de escalado por filas, las curvas de pérdida de fp8 frente a bf16 estaban bastante cerca, pero el paso era netamente más lento. Para el escalado por tensores, las curvas de pérdida se separaron más (es decir, cada paso es de peor calidad), pero al menos ahora obtenemos una aceleración (~7.3%). Puedes recuperar ingenuamente el rendimiento aumentando el horizonte de entrenamiento (entrenas durante más pasos, pero cada paso es más rápido) y esperar que al final salgas adelante. En este caso y en general, jugando un poco con estas recetas y horizontes de entrenamiento, hasta ahora he terminado con una aceleración de ~5%. torchao en su artículo informa de una aceleración de entrenamiento fp8 de Llama3-8B del 25% (frente a mi ~7.3% sin tener en cuenta la capacidad), que está más cerca de lo que esperaba inicialmente, aunque Llama3-8B es un modelo mucho más grande. Probablemente no sea el final de la saga fp8. Debería ser posible mejorar las cosas eligiendo y seleccionando en qué capas aplicarlo exactamente, y siendo más cuidadoso con los números a través de la red.

nanochat ahora puede entrenar un LLM de grado GPT-2 por <<$100 (~$73, 3 horas en un solo nodo 8XH100). GPT-2 es simplemente mi LLM favorito porque es la primera vez que la pila de LLM se presenta en una forma reconociblemente moderna. Así que se ha convertido en una especie de obsesión extraña y duradera para mí entrenar un modelo con capacidad de GPT-2 pero mucho más barato, con el beneficio de ~7 años de progreso. En particular, sospechaba que debería ser posible hoy entrenar uno por <<$100. Originalmente en 2019, GPT-2 fue entrenado por OpenAI en 32 chips TPU v3 durante 168 horas (7 días), a $8/hora/TPUv3 en ese entonces, con un costo total de aproximadamente $43K. Logra un puntaje CORE de 0.256525, que es una métrica de conjunto introducida en el artículo DCLM a través de 22 evaluaciones como ARC/MMLU/etc. A partir de las últimas mejoras fusionadas en nanochat (muchas de ellas originadas en el repositorio modded-nanogpt), ahora puedo alcanzar un puntaje CORE más alto en 3.04 horas (~$73) en un solo nodo 8XH100. Esta es una reducción de costo de 600X en 7 años, es decir, el costo para entrenar GPT-2 está cayendo aproximadamente 2.5X cada año. Creo que esto es probablemente una subestimación porque todavía estoy encontrando más mejoras relativamente de forma regular y tengo una lista de ideas más para probar. Una publicación más larga con muchos de los detalles de las optimizaciones involucradas y pistas sobre cómo reproducirlo está aquí: Inspirado por modded-nanogpt, también creé una tabla de clasificación para "tiempo hasta GPT-2", donde este primer modelo "Jan29" es la entrada #1 con 3.04 horas. Será divertido iterar más sobre esto y agradezco la ayuda. Mi esperanza es que nanochat pueda crecer para convertirse en un arnés experimental LLM muy bonito/limpio y ajustado para prototipar ideas, para divertirse y, por supuesto, para aprender. Las mayores mejoras de cosas que funcionaron desde el principio y simplemente produjeron ganancias de inmediato fueron 1) núcleos de Flash Attention 3 (más rápidos, y permite el argumento window_size kwarg para obtener patrones de atención alternos), optimizador Muon (intenté durante ~1 día eliminarlo y solo usar AdamW y no pude), caminos residuales y conexiones de salto controladas por escalares aprendibles, y embeddings de valor. Hubo muchas otras cosas más pequeñas que se acumulan. Imagen: golosinas visuales semi-relacionadas de derivar las leyes de escalado para la actual miniserie del modelo nanochat, ¡bonita y satisfactoria!

nanochat ahora puede entrenar un LLM de grado GPT-2 por <<$100 (~$73, 3 horas en un solo nodo 8XH100). GPT-2 es simplemente mi LLM favorito porque es la primera vez que la pila de LLM se presenta en una forma reconociblemente moderna. Así que se ha convertido en una especie de obsesión extraña y duradera para mí entrenar un modelo con capacidad de GPT-2 pero mucho más barato, con el beneficio de ~7 años de progreso. En particular, sospechaba que debería ser posible hoy entrenar uno por <<$100. Originalmente en 2019, GPT-2 fue entrenado por OpenAI en 32 chips TPU v3 durante 168 horas (7 días), a $8/hora/TPUv3 en ese entonces, con un costo total de aproximadamente $43K. Logra un puntaje CORE de 0.256525, que es una métrica de conjunto introducida en el artículo DCLM a través de 22 evaluaciones como ARC/MMLU/etc. A partir de las últimas mejoras fusionadas en nanochat (muchas de ellas originadas en el repositorio modded-nanogpt), ahora puedo alcanzar un puntaje CORE más alto en 3.04 horas (~$73) en un solo nodo 8XH100. Esta es una reducción de costo de 600X en 7 años, es decir, el costo para entrenar GPT-2 está cayendo aproximadamente 2.5X cada año. Creo que esto es probablemente una subestimación porque todavía estoy encontrando más mejoras relativamente de forma regular y tengo una lista de ideas más para probar. Una publicación más larga con muchos de los detalles de las optimizaciones involucradas y pistas sobre cómo reproducirlo está aquí: Inspirado por modded-nanogpt, también creé una tabla de clasificación para "tiempo hasta GPT-2", donde este primer modelo "Jan29" es la entrada #1 con 3.04 horas. Será divertido iterar más sobre esto y agradezco la ayuda. Mi esperanza es que nanochat pueda crecer para convertirse en un arnés experimental LLM muy bonito/limpio y ajustado para prototipar ideas, para divertirse y, por supuesto, para aprender. Las mayores mejoras de cosas que funcionaron desde el principio y simplemente produjeron ganancias de inmediato fueron 1) núcleos de Flash Attention 3 (más rápidos, y permite el argumento window_size kwarg para obtener patrones de atención alternos), optimizador Muon (intenté durante ~1 día eliminarlo y solo usar AdamW y no pude), caminos residuales y conexiones de salto controladas por escalares aprendibles, y embeddings de valor. Hubo muchas otras cosas más pequeñas que se acumulan. Imagen: golosinas visuales semi-relacionadas de derivar las leyes de escalado para la actual miniserie del modelo nanochat, ¡bonita y satisfactoria!

Parte superior

Clasificación

Favoritos