🧵 À medida que os laboratórios de IA correm para escalar a RL, uma pergunta é importante: quando você deve parar o pré-treinamento e iniciar a RL?
Treinamos 5 modelos Qwen (0,6B→14B) com RL no GSM8K e encontramos algo selvagem:
Modelos pequenos veem saltos EMERGENCE-LIKE. Grandes modelos veem retornos decrescentes.
A lei de escala? Não é o que você esperaria
Então, @OpenAI fazendo hardware de código aberto e não havia nenhum hype sobre isso!
Prestes a hackear isso a noite toda, cortesia de @dubssg e @michelleqin_, obrigado :) Eu só queria @Humane, mas oss, barato e sem todo o lixo.