Curioso sobre como escrever kernels de matmul Blackwell com desempenho SOTA usando MGPU? Acabamos de publicar um breve tutorial passo a passo:
Em cada etapa, mostramos exatamente quais (pequenas) mudanças são necessárias para refinar o kernel e o kernel final tem pouco menos de 150 linhas.