« La prédiction du prochain token » vient de recevoir un concurrent sérieux 🤯 Ant Group vient de lancer LLaDA 2.1, qui remet en question le paradigme dominant des LLMs. Contrairement à la plupart des modèles qui génèrent un token à la fois, LLaDA 2.1 utilise la diffusion pour générer des blocs de texte en parallèle. Pourquoi cela change tout :  → Planification Globale : Il voit efficacement le "futur" tout en écrivant le "passé" → Génération Parallèle : Il génère des morceaux en parallèle, et non de manière séquentielle, ce qui est beaucoup plus rapide → Efficacité Massive : Architecture MoE de 16B qui n'utilise que ~1,4B de paramètres actifs par étape. 100% Open Source.