«Прогноз наступного жетона» щойно отримав серйозного суперника 🤯 Ant Group щойно відмовилася від LLaDA 2.1, і це кидає виклик домінуючій парадигмі LLM. На відміну від більшості моделей, які генерують один токен одночасно, LLaDA 2.1 використовує дифузію для паралельного генерування блоків тексту. Чому це змінює все:  → Глобальне планування: Воно фактично бачить «майбутнє», одночасно пишучи «минуле» → Паралельна генерація: генерує чанки паралельно, а не послідовно, і значно швидше → Massive Efficiency: архітектура 16B MoE, яка використовує лише ~1.4B активних параметрів на крок. 100% відкритий код.