"Previsão do próximo token" acabou de ganhar um rival 🤯 sério O Ant Group acabou de lançar o LLaDA 2.1, e desafia o paradigma dominante dos LLMs. Diferente da maioria dos modelos que geram um token por vez, o LLaDA 2.1 usa difusão para gerar blocos de texto em paralelo. Por que isso muda tudo:  → Planejamento Global: Ele vê efetivamente o "futuro" enquanto escreve o "passado" → Geração Paralela: Gera blocos em paralelo, não sequencialmente, sendo muito mais rápido → Eficiência Massiva: arquitetura MoE de 16B que usa apenas ~1,4B de parâmetros ativos por passo. 100% código aberto.