Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ahmad
Cercetător AI și inginer software, în misiunea de a construi un cluster GPU DGX B200
Am construit un instrument simplu care face
Claude Code lucrează cu orice LLM local
Demonstrație completă:
> vLLM care deservește GLM-4.5 Air pe 4x RTX 3090
> Claude Code generarea codului + documente prin intermediul proxy-ului meu
> 1 fișier Python + .env gestionează toate cererile
> nvtop afișează încărcarea GPU live
> cum funcționează totul
Cumpărați un GPU
79,87K
Proiecte de inginerie LLM pas cu pas
fiecare proiect = un concept învățat în mod greu (adică real)
Tokenizare și încorporari
> construiți codificatorul de perechi de octeți + antrenați-vă propriul vocabular de subcuvinte
> scrie un "vizualizator de token" pentru a mapa cuvinte/bucăți la ID-uri
> one-hot vs learned-embedding: reprezentați distanțele cosinusului
Încorporari poziționale
> sinusoidal clasic vs învățat vs RoPE vs ALiBi: demo toate patru
> anima o secvență de jucărie "codificată pe poziție" în 3D
> ablate poziții - urmăriți cum atenția se prăbușește
Atenție de sine și atenție la mai multe capete
> atenție manuală a produsului punct pentru un jeton
> scalați la mai multe capete, trasați hărți termice de greutate pe cap
> mască token-urile viitoare, verifică proprietatea cauzală
transformatoare, QKV și stivuire
> stivuiți implementările Attention cu LayerNorm și reziduuri → transformator cu un singur bloc
> generalizează: n-block "mini-former" pe datele jucăriilor
> disecați Q, K, V: schimbați-le, spargeți-le, vedeți ce explodează
Parametri de eșantionare: temp/top-k/top-p
> codificați un tablou de bord de sampler — reglați interactiv temp/k/p și ieșirile de eșantion
> intriga entropia vs diversitatea rezultatelor pe măsură ce măturați parametrii
> Nuke Temp=0 (argmax): repetarea ceasului
Cache KV (inferență rapidă)
> înregistrați și reutilizați stările KV; Măsurați viteza față de no-cache
> construi un vizualizator "cache hit/miss" pentru fluxurile de tokenuri
> costul memoriei cache de profil pentru secvențe lungi vs scurte
Trucuri cu context lung: Infini-Attention / Fereastră glisantă
> implementați atenția ferestrei glisante; Măsurați pierderile pe documente lungi
> benchmark variante "eficiente din punct de vedere al memoriei" (recalcul, flash)
> perplexitatea intrigii versus lungimea contextului; Găsiți punctul de restrângere a contextului
Amestecul de experți (MoE)
> codifica un strat de router cu 2 experți; direcționează tokenurile în mod dinamic
> histograme de utilizare a experților în grafic peste setul de date
> simulează swap-uri rare/dense; măsurați economiile FLOP
Atenție interogare grupată
> convertiți mini-fostul în aspectul interogării grupate
> măsurați viteza față de capul multiplu vanilie pe loturi mari
> reduce numărul de grupuri, latența grafică
Normalizare și activări
> implementare manuală LayerNorm, RMSNorm, SwiGLU, GELU
> ablate fiecare - ce se întâmplă cu pierderea antrenamentului/testării?
> reprezentați distribuțiile de activare pe straturi
Obiective de pre-antrenament
> tren LM mascat vs LM cauzal vs prefix LM pe textul de jucărie
> curbe de pierdere ale graficului; compară care învață "engleză" mai repede
> generați mostre din fiecare - notați ciudățenii
Reglare fină vs reglare a instrucțiunilor vs RLHF
> reglați fin un mic set de date personalizat
> reglarea instrucțiunilor prin prepunerea activităților ("Rezumat: ...")
> RLHF: piratați un model de recompensă, utilizați PPO timp de 10 pași, complotați recompensa
Legi de scalare și capacitate de model
> antrenează modele mici, mici și medii - pierderea parcelei față de dimensiune
> timp de ceas de perete de referință, VRAM, randament
> extrapolați curba de scalare - cât de "prost" puteți fi?
Quantization
> cod PTQ și QAT; export în GGUF/AWQ; scăderea preciziei grafice
Stive de inferență/antrenament:
> port un model de la HuggingFace la Deepspeed, vLLM, ExLlama
> profilul de debit, VRAM, latență pentru toate cele trei
Date sintetice
> generați date despre jucării, adăugați zgomot, deduplicați, creați diviziuni de evaluare
> vizualizați curbele de învățare a modelului pe real vs synth
Fiecare proiect = o perspectivă de bază. zidi. complot. sparge. repeta.
> nu rămâneți blocați prea mult în teorie
> cod, depanează, ablate, chiar și meme graficele tale lol
> termina fiecare și postează ceea ce ai învățat
sinele tău viitor îți va mulțumi mai târziu
13,92K
Limită superioară
Clasament
Favorite