"Next-token predicttion" právě získal vážného rivala 🤯 Ant Group právě zrušila LLaDA 2.1 a ta zpochybňuje dominantní paradigma LLM. Na rozdíl od většiny modelů, které generují vždy jeden token, LLaDA 2.1 používá difuzi k paralelnímu generování bloků textu. Proč to mění všechno:  → Globální plánování: Efektivně vidí "budoucnost" a zároveň píše "minulost" → Paralelní generování: Generuje bloky paralelně, nikoli sekvenčně, a je mnohem rychlejší → Obrovská efektivita: 16B architektura MoE, která používá pouze ~1,4B aktivních parametrů na krok. 100% open source.