Penasaran bagaimana cara menulis kernel Blackwell matmul performa SOTA menggunakan MGPU? Kami baru saja menerbitkan tutorial langkah demi langkah singkat: Pada setiap langkah, kami menunjukkan dengan tepat perubahan (kecil) apa yang diperlukan untuk menyempurnakan kernel dan kernel akhir hanya di bawah 150 baris.