Este é um grande experimento! Não é bem uma lei de escalonamento de RL, no sentido do que coletei de alguns laboratórios de ponta. Muitas coisas são semelhantes, mas os métodos deles para estabelecer essas relações parecem um pouco diferentes. Primeiro, eles definitivamente usam um conjunto de modelos base mais ou menos assim. Embora não esteja claro para mim se a combinação de GSM8K, especialmente com Qwen 3, é uma boa combinação. É um problema demasiado fácil para esses modelos e provavelmente foi um alvo de pré-treinamento ou treinamento intermediário diretamente. Para aliviar isso, a coisa que é usada para observar o escalonamento para laboratórios é a precisão de validação em um subconjunto dos problemas de treinamento. Isso mostra as habilidades dos modelos de aprender a partir de um determinado conjunto de dados. Isso difere das leis de escalonamento de pré-treinamento que preveem a perda do conjunto de teste. Uma grande incógnita, na minha opinião, é quantos passos leva para um modelo pequeno em comparação com um grande modelo convergir. Em muitas das minhas experiências pessoais (e discussões), parece mais provável que modelos grandes realmente precisem de menos passos, então o gráfico que você compartilhou me dá algumas preocupações. Então, o que os laboratórios fazem é prever o desempenho final a partir da forma inicial das curvas de RL. Isso também é muito mais fácil com uma infraestrutura superior que é mais estável em execuções mais longas. Isso se parece mais com as leis de escalonamento de pré-treinamento tradicionais, onde você treina cada modelo para um múltiplo dos tokens ótimos de Chinchilla. Isso também não leva em conta o escalonamento de diferentes hiperparâmetros. Uma grande parte da aplicação das leis de escalonamento é aprender corretamente como escalar parâmetros-chave para o modelo. Para pré-treinamento, isso é frequentemente a taxa de aprendizado (LR), o cronograma de LR e ajustes no tamanho do lote. RL, na minha experiência, tem sido muito menos sensível à taxa de aprendizado do que o pré-treinamento.