¿Tienes curiosidad por saber cómo escribir kernels de matmul Blackwell con rendimiento SOTA utilizando MGPU? Acabamos de publicar un breve tutorial paso a paso: En cada paso, mostramos exactamente qué cambios (pequeños) son necesarios para refinar el kernel y el kernel final tiene poco menos de 150 líneas.