好奇如何使用 MGPU 編寫 SOTA 性能的 Blackwell matmul 核心嗎?我們剛剛發布了一個簡短的逐步教程: 在每一步中,我們都清楚地展示了為了完善核心所需的(小)變更,最終的核心僅有不到 150 行。