Curioso para saber como escrever kernels de matmul Blackwell de desempenho SOTA usando MGPU? Acabamos de publicar um breve tutorial passo a passo: Em cada etapa, mostramos exatamente quais (pequenas) alterações são necessárias para refinar o kernel e o kernel final tem pouco menos de 150 linhas.