Questo è un grande esperimento! Non è esattamente una legge di scaling RL, nel senso di ciò che ho raccolto da alcuni laboratori all'avanguardia. Molte cose sono simili, ma i loro metodi per stabilire queste relazioni sembrano un po' diversi. Innanzitutto, utilizzano sicuramente un insieme di modelli di base simile a questo. Anche se, non è chiaro per me se la combinazione di GSM8K, specialmente con Qwen 3, sia una buona accoppiata. È un problema troppo facile per quei modelli e probabilmente è stato un obiettivo di pretraining o midtraining diretto. Per alleviare questo, ciò che viene utilizzato per osservare lo scaling per i laboratori è l'accuratezza di validazione su un sottoinsieme dei problemi di addestramento. Questo mostra le capacità dei modelli di apprendere da un dato dataset. Questo differisce dalle leggi di scaling del pretraining che prevedono la perdita del set di test. Un grande sconosciuto, a mio parere, è quante iterazioni ci vogliono per un modello piccolo rispetto a un modello grande per convergere. Attraverso molte delle mie esperienze personali (e discussioni) sembra più probabile che i modelli grandi abbiano effettivamente bisogno di meno iterazioni, quindi il grafico che hai condiviso mi preoccupa un po'. Poi, ciò che fanno i laboratori è prevedere le prestazioni finali dalla forma iniziale delle curve RL. Questo è anche molto più facile con un'infrastruttura superiore che è più stabile su run più lunghi. Questo sembra più vicino alle tradizionali leggi di scaling del pretraining dove alleni ogni modello a un multiplo dei token ottimali di Chinchilla. Questo non tiene conto nemmeno del diverso scaling degli iperparametri. Una grande parte dell'applicazione delle leggi di scaling è imparare correttamente come scalare i parametri chiave per il modello. Per il pretraining, questo è spesso il tasso di apprendimento (LR), la pianificazione del LR e le regolazioni della dimensione del batch. L'RL, nella mia esperienza, è stato molto meno sensibile al tasso di apprendimento rispetto al pretraining.