"Neste-token-spådom" fikk nettopp en seriøs rival 🤯 Ant Group har nettopp droppet LLaDA 2.1, og det utfordrer det dominerende paradigmet for LLM-er. I motsetning til de fleste modeller som genererer ett token om gangen, bruker LLaDA 2.1 diffusjon for å generere tekstblokker parallelt. Hvorfor dette endrer alt:  → Global Planning: Den ser effektivt "fremtiden" mens den skriver "fortiden" → Parallell generering: Den genererer chunks parallelt, ikke sekvensielt, og er mye raskere → Massiv effektivitet: 16B MoE-arkitektur som kun bruker ~1,4B aktive parametere per steg. 100 % åpen kildekode.