Vous vous demandez comment écrire des noyaux matmul Blackwell à la performance SOTA en utilisant MGPU ? Nous venons de publier un court tutoriel étape par étape :
À chaque étape, nous montrons exactement quels (petits) changements sont nécessaires pour affiner le noyau et le noyau final fait juste moins de 150 lignes.