好奇如何使用MGPU编写SOTA性能的Blackwell matmul内核?我们刚刚发布了一篇简短的逐步教程: 在每一步中,我们都准确展示了精炼内核所需的(小)更改,最终的内核仅有不到150行。