Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¡Este es un gran experimento! No es exactamente una ley de escalado de RL, en el sentido de lo que he recopilado de algunos laboratorios de vanguardia. Muchas cosas son similares, pero sus métodos para establecer estas relaciones parecen un poco diferentes.
Primero, definitivamente utilizan un conjunto de modelos base algo así. Sin embargo, no me queda claro si la combinación de GSM8K, especialmente con Qwen 3, es una buena pareja. Es un problema demasiado fácil para esos modelos y probablemente ha sido un objetivo de preentrenamiento o entrenamiento intermedio directamente.
Para aliviar esto, lo que se utiliza para observar el escalado en los laboratorios es la precisión de validación en un subconjunto de los problemas de entrenamiento. Esto muestra las habilidades de los modelos para aprender de un conjunto de datos dado. Esto difiere de las leyes de escalado de preentrenamiento que predicen la pérdida en el conjunto de prueba.
Un gran desconocido en mi opinión es cuántos pasos se necesitan para que un modelo pequeño frente a un modelo grande converjan. A través de muchas de mis experiencias personales (y discusiones), parece más probable que los modelos grandes realmente necesiten menos pasos, así que el gráfico que compartiste me genera algunas preocupaciones.
Luego, lo que hacen los laboratorios es pronosticar el rendimiento final a partir de la forma inicial de las curvas de RL. Esto también es mucho más fácil con una infraestructura superior que es más estable en ejecuciones más largas. Esto se parece más a las leyes de escalado de preentrenamiento tradicionales donde entrenas cada modelo a un múltiplo de los tokens óptimos de Chinchilla.
Esto tampoco tiene en cuenta el escalado de diferentes hiperparámetros. Una gran parte de aplicar leyes de escalado es aprender correctamente cómo escalar parámetros clave para el modelo. Para el preentrenamiento, esto suele ser la tasa de aprendizaje (LR), el cronograma de LR y los ajustes del tamaño del lote. En mi experiencia, el RL ha sido mucho menos sensible a la tasa de aprendizaje que el preentrenamiento.
Parte superior
Clasificación
Favoritos