Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Włączono trening fp8, co przyniosło poprawę o +4,3% w "czasie do GPT-2", teraz wynoszącym 2,91 godziny. Warto również zauważyć, że jeśli używasz cen instancji spot 8XH100, to ten repro GPT-2 kosztuje naprawdę tylko około 20 USD. To ekscytujące -
GPT-2 (7 lat temu): zbyt niebezpieczne, aby to wydać.
GPT-2 (dziś): nowy MNIST! :)
Z pewnością można to zrealizować poniżej 1 godziny.
Kilka słów o fp8, było to trochę bardziej skomplikowane, niż się spodziewałem i zajęło mi trochę czasu, aby się za to zabrać, a nawet teraz nie jestem w 100% pewien, czy to dobry pomysł z powodu mniejszego ogólnego wsparcia dla tego. Na papierze, fp8 na H100 to 2X FLOPS, ale w praktyce jest to znacznie mniej. Nie jesteśmy w 100% ograniczeni przez obliczenia w rzeczywistym treningu, jest dodatkowe obciążenie z powodu dodanych konwersji skali, GEMM-y nie są wystarczająco duże w skali GPT-2, aby obciążenie było wyraźnie warte, a oczywiście - przy niższej precyzji jakość każdego kroku jest mniejsza. W przypadku przepisu na skalowanie wierszowe krzywe strat fp8 w porównaniu do bf16 były dość bliskie, ale działało to nieco wolniej. W przypadku skalowania tensorowego krzywe strat oddzieliły się bardziej (tzn. każdy krok ma gorszą jakość), ale przynajmniej teraz uzyskujemy przyspieszenie (~7,3%). Można naiwne odzyskać wydajność, zwiększając horyzont treningowy (trenujesz przez więcej kroków, ale każdy krok jest szybszy) i mieć nadzieję, że w sumie wyjdziesz na plus. W tym przypadku i ogólnie, bawiąc się tymi przepisami i horyzontami treningowymi, jak dotąd uzyskałem około 5% przyspieszenia. torchao w swoim artykule raportuje przyspieszenie treningu Llama3-8B fp8 o 25% (w porównaniu do mojego ~7,3% bez uwzględnienia zdolności), co jest bliższe temu, na co początkowo liczyłem, chociaż Llama3-8B to znacznie większy model. To prawdopodobnie nie koniec sagi fp8. Powinno być możliwe poprawienie rzeczy, wybierając i decydując, na których warstwach dokładnie to zastosować, i będąc bardziej ostrożnym z numerami w całej sieci.
Najlepsze
Ranking
Ulubione
