A "previsão do próximo token" acaba de ganhar um rival sério 🤯 O Ant Group acaba de lançar o LLaDA 2.1, que desafia o paradigma dominante dos LLMs. Ao contrário da maioria dos modelos que geram um token de cada vez, o LLaDA 2.1 utiliza difusão para gerar blocos de texto em paralelo. Por que isso muda tudo:  → Planeamento Global: Ele vê efetivamente o "futuro" enquanto escreve o "passado" → Geração Paralela: Ele gera pedaços em paralelo, não sequencialmente, sendo muito mais rápido → Eficiência Massiva: Arquitetura MoE de 16B que usa apenas ~1.4B de parâmetros ativos por passo. 100% Open Source.