"Predicția următorului token" tocmai a primit un rival 🤯 serios Ant Group tocmai a lansat LLaDA 2.1 și provoacă paradigma dominantă a LLM-urilor. Spre deosebire de majoritatea modelelor care generează un token odată, LLaDA 2.1 folosește difuzia pentru a genera blocuri de text în paralel. De ce asta schimbă totul:  → Planificare globală: Vede efectiv "viitorul" în timp ce scrie "trecutul" → Generare paralelă: Generează segmente în paralel, nu secvențial, fiind mult mai rapid → Eficiență masivă: arhitectură MoE de 16B care folosește doar ~1,4B parametri activi pe pas. 100% Open Source.