«Предсказание следующего токена» получило серьезного соперника 🤯 Ant Group только что выпустила LLaDA 2.1, которая бросает вызов доминирующей парадигме LLM. В отличие от большинства моделей, которые генерируют один токен за раз, LLaDA 2.1 использует диффузию для генерации блоков текста параллельно. Почему это меняет все:  → Глобальное планирование: она эффективно видит «будущее», пока пишет «прошлое» → Параллельная генерация: она генерирует куски параллельно, а не последовательно, что значительно быстрее → Огромная эффективность: архитектура 16B MoE, которая использует всего ~1.4B активных параметров на шаг. 100% с открытым исходным кодом.