"Nästa token-förutsägelse" har precis fått en seriös rival 🤯 Ant Group har precis släppt LLaDA 2.1, och det utmanar det dominerande paradigmet för LLM:er. Till skillnad från de flesta modeller som genererar en token åt gången, använder LLaDA 2.1 diffusion för att generera textblock parallellt. Varför detta förändrar allt:  → Global planering: Den ser effektivt "framtiden" samtidigt som den skriver "det förflutna" → Parallell generering: Den genererar chunks parallellt, inte sekventiellt, och är mycket snabbare → Massiv effektivitet: 16B MoE-arkitektur som endast använder ~1,4B aktiva parametrar per steg. 100 % öppen källkod.