🧵 À medida que os laboratórios de IA correm para escalar o RL, uma pergunta importa: quando você deve parar o pré-treinamento e começar o RL?
Treinámos 5 modelos Qwen (0.6B→14B) com RL no GSM8K e encontramos algo incrível:
Modelos pequenos apresentam saltos semelhantes a EMERGÊNCIA. Modelos grandes apresentam retornos decrescentes.
A lei de escalonamento? Não é o que você esperaria.
então, @OpenAI fazendo hardware de código aberto e não houve hype nenhum sobre isso!
estou prestes a hackear nisso a noite toda, graças a @dubssg e @michelleqin_, obrigado :) Eu só queria @Humane, mas oss, barato, e sem toda a bagunça.