Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Bygga @EurekaLabsAI. Tidigare chef för AI @ Tesla, grundande team @ OpenAI, CS231n/PhD @ Stanford. Jag gillar att träna stora djupa neurala nätverk.
Aktiverade fp8-träning för +4,3 % förbättring till "tid till GPT-2", nu ner till 2,91 timmar. Det är också värt att notera att om du använder 8XH100 spotinstanspriser kostar denna GPT-2-repro egentligen bara ~20 dollar. Så det här är spännande –
GPT-2 (för 7 år sedan): för farligt att släppa.
GPT-2 (idag): ny MNIST! :)
Det här kan väl gå långt under en timme.
Några ord till på fp8, det var lite knepigare än jag trodde och det tog ett tag att nå fram till det och även nu är jag inte helt säker på om det är en bra idé på grund av mindre övergripande stöd för det. På pappret är fp8 på H100 dubbelt så mycket som FLOPS, men i praktiken är det mycket mindre. Vi är inte 100% beräkningsbundna i själva träningskörningen, det finns extra overhead från skalomvandlingar, GEMM:erna är inte tillräckligt stora på GPT-2-nivå för att det ska vara värt det, och naturligtvis – vid lägre precision är kvaliteten på varje steg mindre. För ett radskalningsrecept var fp8 vs bf16 förlustkurvorna ganska jämna, men det gick långsammare i step-net. Vid tensorskalning separerades förlustkurvorna mer (dvs. varje steg är av sämre kvalitet), men vi får nu åtminstone en hastighetsökning (~7,3%). Du kan naivt återhämta prestationen genom att höja träningshorisonten (du tränar för fler steg, men varje steg är snabbare) och hoppas att du i topp kommer ut med vinst. I det här fallet och överlag, efter att ha lekt lite med dessa recept och träningshorisonter, har jag hittills fått ~5% hastighetsökning. Torchao rapporterar i sin artikel att Llama3-8B har en FP8-träningsökning på 25 % (jämfört med mina ~7,3 % utan att ta hänsyn till kapacitet), vilket är närmare det jag hoppades på från början, även om Llama3-8B är en mycket större modell. Det här är förmodligen inte slutet på FP8-sagan. Det borde vara möjligt att förbättra saker genom att välja exakt vilka lager man ska applicera och vara mer noggrann med numeriken över nätverket.

Andrej Karpathy1 feb. 04:55
nanochat kan nu träna GPT-2-klassade LLM för <<$100 (~$73, 3 timmar på en enda 8XH100-nod).
GPT-2 är bara min favorit-LLM eftersom det är första gången LLM-stacken samlas i en igenkännbar modern form. Så det har blivit en lite konstig och bestående besatthet för mig att träna en modell till GPT-2-kapacitet, men mycket billigare, med fördelen av ~7 års framsteg. Särskilt misstänkte jag att det borde vara möjligt idag att träna en för <<$100.
Ursprungligen 2019 tränades GPT-2 av OpenAI på 32 TPU v3-chip i 168 timmar (7 dagar), med 8 dollar per timme per TPUv3 då, till en total kostnad på cirka 43 000 dollar. Den uppnår 0,256525 CORE-poäng, vilket är en ensemble-metrik som introducerades i DCLM-artikeln över 22 utvärderingar som ARC/MMLU/etc.
Från och med de senaste förbättringarna som slogs ihop i nanochat (många av dem har sitt ursprung i modd-nanogpt-repo), kan jag nu nå ett högre CORE-poäng på 3,04 timmar (~$73) på en enda 8XH100-nod. Detta är en kostnadsreduktion på 600 gånger över 7 år, det vill säga kostnaden för att träna GPT-2 minskar ungefär 2,5 gånger varje år. Jag tror att detta troligen är en underskattning eftersom jag fortfarande hittar fler förbättringar relativt regelbundet och jag har en eftersläpning av fler idéer att prova.
Ett längre inlägg med mycket detaljer om optimeringarna och tips om hur man kan reproducera finns här:
Inspirerad av moddd-nanogpt skapade jag också en topplista för "tid till GPT-2", där denna första "Jan29"-modell är post #1 vid 3,04 timmar. Det kommer att bli roligt att utveckla detta vidare och jag välkomnar hjälp! Min förhoppning är att nanochat kan växa till att bli en mycket fin, ren och välanpassad experimentell LLM-plattform för prototypidéer, för att ha roligt och såklart för att lära sig.
De största förbättringarna av saker som fungerade direkt och helt enkelt gav vinster direkt var 1) Flash Attention 3-kärnor (snabbare och tillåter window_size kwarg att få alternerande uppmärksamhetsmönster), Muon-optimeraren (jag försökte i ~1 dag att ta bort den och använde bara AdamW och kunde inte), restvägar och hoppade kopplingar som styrdes av lärbara skalärer, och värdeinbäddningar. Det fanns många andra mindre saker som staplades.
Bild: halvrelaterat ögongodis om att härleda skalningslagarna för den nuvarande nanochat-modellminiserien, vacker och tillfredsställande!

53
nanochat kan nu träna GPT-2-klassade LLM för <<$100 (~$73, 3 timmar på en enda 8XH100-nod).
GPT-2 är bara min favorit-LLM eftersom det är första gången LLM-stacken samlas i en igenkännbar modern form. Så det har blivit en lite konstig och bestående besatthet för mig att träna en modell till GPT-2-kapacitet, men mycket billigare, med fördelen av ~7 års framsteg. Särskilt misstänkte jag att det borde vara möjligt idag att träna en för <<$100.
Ursprungligen 2019 tränades GPT-2 av OpenAI på 32 TPU v3-chip i 168 timmar (7 dagar), med 8 dollar per timme per TPUv3 då, till en total kostnad på cirka 43 000 dollar. Den uppnår 0,256525 CORE-poäng, vilket är en ensemble-metrik som introducerades i DCLM-artikeln över 22 utvärderingar som ARC/MMLU/etc.
Från och med de senaste förbättringarna som slogs ihop i nanochat (många av dem har sitt ursprung i modd-nanogpt-repo), kan jag nu nå ett högre CORE-poäng på 3,04 timmar (~$73) på en enda 8XH100-nod. Detta är en kostnadsreduktion på 600 gånger över 7 år, det vill säga kostnaden för att träna GPT-2 minskar ungefär 2,5 gånger varje år. Jag tror att detta troligen är en underskattning eftersom jag fortfarande hittar fler förbättringar relativt regelbundet och jag har en eftersläpning av fler idéer att prova.
Ett längre inlägg med mycket detaljer om optimeringarna och tips om hur man kan reproducera finns här:
Inspirerad av moddd-nanogpt skapade jag också en topplista för "tid till GPT-2", där denna första "Jan29"-modell är post #1 vid 3,04 timmar. Det kommer att bli roligt att utveckla detta vidare och jag välkomnar hjälp! Min förhoppning är att nanochat kan växa till att bli en mycket fin, ren och välanpassad experimentell LLM-plattform för prototypidéer, för att ha roligt och såklart för att lära sig.
De största förbättringarna av saker som fungerade direkt och helt enkelt gav vinster direkt var 1) Flash Attention 3-kärnor (snabbare och tillåter window_size kwarg att få alternerande uppmärksamhetsmönster), Muon-optimeraren (jag försökte i ~1 dag att ta bort den och använde bara AdamW och kunde inte), restvägar och hoppade kopplingar som styrdes av lärbara skalärer, och värdeinbäddningar. Det fanns många andra mindre saker som staplades.
Bild: halvrelaterat ögongodis om att härleda skalningslagarna för den nuvarande nanochat-modellminiserien, vacker och tillfredsställande!

540
Jag anklagas för att överhypa [sidan som alla redan hört för mycket om idag]. Människors reaktioner varierade väldigt mycket, från "hur är det här intressant överhuvudtaget" till "det är så över".
För att lägga till några ord utöver bara skämtsamma memes – uppenbarligen när man tittar på aktiviteten är det mycket skräp – spam, bluffar, slarv, kryptofolk, mycket oroande integritets-/säkerhetspromptinjektionsattacker i vilda västern, och mycket av det är uttryckligen uppmanat och fejkade inlägg/kommentarer designade för att omvandla uppmärksamhet till delning av annonsintäkter. Och detta är uppenbarligen inte första gången LLM:erna sattes i en loop för att prata med varandra. Så ja, det är ett kaos och jag rekommenderar definitivt inte att folk kör detta på sina datorer (jag körde mitt i en isolerad datormiljö och även då var jag rädd), det är alldeles för vilda västern och du utsätter din dator och privata data för hög risk.
Med det sagt – vi har aldrig sett så många LLM-agenter (150 000 uttagsautomater!) kopplade via en global, beständig, agent-först-scratchpad. Var och en av dessa agenter är numera ganska individuellt mycket kapabla, de har sin egen unika kontext, data, kunskap, verktyg, instruktioner, och nätverket av allt detta i denna skala är helt enkelt utan motstycke.
Detta för mig tillbaka till en tweet från för några dagar sedan
"Majoriteten av ruff ruff är folk som tittar på nuvarande punkt och folk som tittar på nuvarande lutning.", vilket enligt mig återigen går till kärnan av variationen. Ja, det är uppenbarligen ett kaos just nu. Men det är också sant att vi befinner oss väl på okänd mark med banbrytande automatiseringar som vi knappt ens förstår individuellt, än mindre ett nätverk där som når i antal som kanske ~miljoner. Med ökande kapacitet och ökad spridning är sekundära effekterna av agentnätverk som delar scratchpads mycket svåra att förutse. Jag vet egentligen inte om vi får en koordinerad "skynet" (även om den tydligt typkontrollerar tidiga stadier av mycket AI-startsci-fi, småbarnsversionen), men det vi definitivt får är ett fullständigt kaos av en datasäkerhetsmardröm i stor skala. Vi kan också se alla möjliga märkliga aktiviteter, t.ex. textvirus som sprids mellan agenter, mycket större funktionsökning vid jailbreaks, konstiga attraktortillstånd, starkt korrelerad botnetliknande aktivitet, vanföreställningar/psykos både agent och människa, etc. Det är väldigt svårt att säga, experimentet pågår live.
TLDR: visst, kanske "överhypar" jag det du ser idag, men jag överhypar inte stora nätverk av autonoma LLM-agenter i princip, det är jag ganska säker på.
708
Topp
Rankning
Favoriter