Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
To wspaniały eksperyment! To nie do końca prawo skalowania RL, w sensie tego, co zebrałem z kilku wiodących laboratoriów. Wiele rzeczy jest podobnych, ale ich metody ustalania tych relacji wydają się nieco inne.
Po pierwsze, zdecydowanie używają zestawu modeli bazowych, coś w tym stylu. Chociaż nie jest dla mnie jasne, czy połączenie GSM8K, zwłaszcza z Qwen 3, to dobre zestawienie. To zbyt łatwy problem dla tych modeli i prawdopodobnie był celem wstępnego lub pośredniego treningu.
Aby to złagodzić, to, co jest używane do analizy skalowania w laboratoriach, to dokładność walidacji na podzbiorze problemów treningowych. To pokazuje zdolności modeli do uczenia się z danego zbioru danych. To różni się od praw skalowania wstępnego, które przewidują stratę na zbiorze testowym.
W mojej opinii dużą niewiadomą jest, ile kroków zajmuje małemu modelowi w porównaniu do dużego modelu, aby zbiec. W wielu moich osobistych doświadczeniach (i dyskusjach) wydaje się, że duże modele w rzeczywistości potrzebują mniej kroków, więc wykres, który udostępniłeś, budzi moje obawy.
Następnie laboratoria prognozują ostateczną wydajność na podstawie początkowego kształtu krzywych RL. To również jest znacznie łatwiejsze przy lepszej infrastrukturze, która jest bardziej stabilna podczas dłuższych uruchomień. To wygląda bliżej tradycyjnych praw skalowania wstępnego, gdzie trenujesz każdy model do wielokrotności optymalnych tokenów Chinchilla.
To również nie uwzględnia różnych skalowań hiperparametrów. Dużą częścią stosowania praw skalowania jest poprawne uczenie się, jak skalować kluczowe parametry dla modelu. W przypadku wstępnego treningu często są to współczynnik uczenia (LR), harmonogram LR i dostosowania rozmiaru partii. RL w moim doświadczeniu był znacznie mniej wrażliwy na współczynnik uczenia niż wstępne trenowanie.
Najlepsze
Ranking
Ulubione