"Predicción del siguiente token" acaba de tener un rival 🤯 serio Ant Group acaba de lanzar LLaDA 2.1 y desafía el paradigma dominante de los LLM. A diferencia de la mayoría de los modelos que generan un token a la vez, LLaDA 2.1 utiliza difusión para generar bloques de texto en paralelo. Por qué esto lo cambia todo:  → Planificación Global: Efectivamente ve el "futuro" mientras escribe el "pasado" → Generación Paralela: Genera fragmentos en paralelo, no secuencialmente, siendo mucho más rápido → Eficiencia masiva: arquitectura MoE de 16B que solo utiliza ~1,4B parámetros activos por paso. 100% de código abierto.