Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¡Este es un gran experimento! No es exactamente una ley de escala de RL, en el sentido de lo que he recopilado de algunos laboratorios fronterizos. Muchas cosas son similares, pero sus métodos para establecer estas relaciones parecen un poco diferentes.
Primero, definitivamente usan un conjunto de modelos base como este. Sin embargo, no me queda claro si la combinación de GSM8K, especialmente con Qwen 3, es una buena combinación. Es un problema demasiado fácil para esos modelos y es probable que haya sido un objetivo de preentrenamiento o entrenamiento medio directamente.
Para aliviar esto, lo que se usa para observar el escalado de los laboratorios es la precisión de validación en un subconjunto de los problemas de entrenamiento. Esto muestra las capacidades de los modelos para aprender de un conjunto de datos determinado. Esto difiere de las leyes de escalado de preentrenamiento que predicen la pérdida del conjunto de pruebas.
Una gran incógnita en mi opinión es cuántos pasos se necesitan para que un modelo pequeño frente a un modelo grande converja. A través de muchas de mis experiencias personales (y discusiones) parece más probable que los modelos grandes en realidad necesiten menos pasos, por lo que la trama que compartiste me preocupa mucho.
Luego, lo que hacen los laboratorios es pronosticar el rendimiento final a partir de la forma inicial de las curvas RL. Esto también es mucho más fácil con una infraestructura superior que es más estable en tiradas más largas. Esto se parece más a las leyes de escalado de preentrenamiento tradicionales en las que entrenas cada modelo a un múltiplo de tokens óptimos de Chinchilla.
Esto tampoco tiene en cuenta el escalado de diferentes hiperparámetros. Una gran parte de la aplicación de leyes de escala es aprender correctamente cómo escalar parámetros clave para el modelo. Para el preentrenamiento, esto suele ser la tasa de aprendizaje (LR), el programa LR y los ajustes de tamaño de lote. RL en mi experiencia ha sido mucho menos sensible a la tasa de aprendizaje que el preentrenamiento.
Populares
Ranking
Favoritas