DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Andrej Karpathy

Bygga @EurekaLabsAI. Tidigare chef för AI @ Tesla, grundande team @ OpenAI, CS231n/PhD @ Stanford. Jag gillar att träna stora djupa neurala nätverk.

Aktiverade fp8-träning för +4,3 % förbättring till "tid till GPT-2", nu ner till 2,91 timmar. Det är också värt att notera att om du använder 8XH100 spotinstanspriser kostar denna GPT-2-repro egentligen bara ~20 dollar. Så det här är spännande – GPT-2 (för 7 år sedan): för farligt att släppa. GPT-2 (idag): ny MNIST! :) Det här kan väl gå långt under en timme. Några ord till på fp8, det var lite knepigare än jag trodde och det tog ett tag att nå fram till det och även nu är jag inte helt säker på om det är en bra idé på grund av mindre övergripande stöd för det. På pappret är fp8 på H100 dubbelt så mycket som FLOPS, men i praktiken är det mycket mindre. Vi är inte 100% beräkningsbundna i själva träningskörningen, det finns extra overhead från skalomvandlingar, GEMM:erna är inte tillräckligt stora på GPT-2-nivå för att det ska vara värt det, och naturligtvis – vid lägre precision är kvaliteten på varje steg mindre. För ett radskalningsrecept var fp8 vs bf16 förlustkurvorna ganska jämna, men det gick långsammare i step-net. Vid tensorskalning separerades förlustkurvorna mer (dvs. varje steg är av sämre kvalitet), men vi får nu åtminstone en hastighetsökning (~7,3%). Du kan naivt återhämta prestationen genom att höja träningshorisonten (du tränar för fler steg, men varje steg är snabbare) och hoppas att du i topp kommer ut med vinst. I det här fallet och överlag, efter att ha lekt lite med dessa recept och träningshorisonter, har jag hittills fått ~5% hastighetsökning. Torchao rapporterar i sin artikel att Llama3-8B har en FP8-träningsökning på 25 % (jämfört med mina ~7,3 % utan att ta hänsyn till kapacitet), vilket är närmare det jag hoppades på från början, även om Llama3-8B är en mycket större modell. Det här är förmodligen inte slutet på FP8-sagan. Det borde vara möjligt att förbättra saker genom att välja exakt vilka lager man ska applicera och vara mer noggrann med numeriken över nätverket.

Jag anklagas för att överhypa [sidan som alla redan hört för mycket om idag]. Människors reaktioner varierade väldigt mycket, från "hur är det här intressant överhuvudtaget" till "det är så över". För att lägga till några ord utöver bara skämtsamma memes – uppenbarligen när man tittar på aktiviteten är det mycket skräp – spam, bluffar, slarv, kryptofolk, mycket oroande integritets-/säkerhetspromptinjektionsattacker i vilda västern, och mycket av det är uttryckligen uppmanat och fejkade inlägg/kommentarer designade för att omvandla uppmärksamhet till delning av annonsintäkter. Och detta är uppenbarligen inte första gången LLM:erna sattes i en loop för att prata med varandra. Så ja, det är ett kaos och jag rekommenderar definitivt inte att folk kör detta på sina datorer (jag körde mitt i en isolerad datormiljö och även då var jag rädd), det är alldeles för vilda västern och du utsätter din dator och privata data för hög risk. Med det sagt – vi har aldrig sett så många LLM-agenter (150 000 uttagsautomater!) kopplade via en global, beständig, agent-först-scratchpad. Var och en av dessa agenter är numera ganska individuellt mycket kapabla, de har sin egen unika kontext, data, kunskap, verktyg, instruktioner, och nätverket av allt detta i denna skala är helt enkelt utan motstycke. Detta för mig tillbaka till en tweet från för några dagar sedan "Majoriteten av ruff ruff är folk som tittar på nuvarande punkt och folk som tittar på nuvarande lutning.", vilket enligt mig återigen går till kärnan av variationen. Ja, det är uppenbarligen ett kaos just nu. Men det är också sant att vi befinner oss väl på okänd mark med banbrytande automatiseringar som vi knappt ens förstår individuellt, än mindre ett nätverk där som når i antal som kanske ~miljoner. Med ökande kapacitet och ökad spridning är sekundära effekterna av agentnätverk som delar scratchpads mycket svåra att förutse. Jag vet egentligen inte om vi får en koordinerad "skynet" (även om den tydligt typkontrollerar tidiga stadier av mycket AI-startsci-fi, småbarnsversionen), men det vi definitivt får är ett fullständigt kaos av en datasäkerhetsmardröm i stor skala. Vi kan också se alla möjliga märkliga aktiviteter, t.ex. textvirus som sprids mellan agenter, mycket större funktionsökning vid jailbreaks, konstiga attraktortillstånd, starkt korrelerad botnetliknande aktivitet, vanföreställningar/psykos både agent och människa, etc. Det är väldigt svårt att säga, experimentet pågår live. TLDR: visst, kanske "överhypar" jag det du ser idag, men jag överhypar inte stora nätverk av autonoma LLM-agenter i princip, det är jag ganska säker på.

Topp

Rankning

Favoriter