🧵 A medida que los laboratorios de IA compiten para escalar RL, una pregunta importa: ¿cuándo debe detener el preentrenamiento y comenzar RL?
Entrenamos 5 modelos Qwen (0.6B→14B) con RL en GSM8K y encontramos algo salvaje:
Los modelos pequeños ven saltos SIMILARES a EMERGENCIA. Los modelos grandes ven rendimientos decrecientes.
¿La ley de escala? No es lo que esperarías
Entonces, @OpenAI haciendo hardware de código abierto y no hubo bombo al respecto.
A punto de hackear esto toda la noche, cortesía de @dubssg y @michelleqin_, gracias :) Solo he estado queriendo @Humane, pero oss, barato y sin toda la basura.