¿Tiene curiosidad por saber cómo escribir kernels Blackwell matmul de rendimiento SOTA usando MGPU? Acabamos de publicar un breve tutorial paso a paso: En cada paso, mostramos exactamente qué (pequeños) cambios son necesarios para refinar el kernel y el kernel final tiene poco menos de 150 líneas.