Curioso di sapere come scrivere i kernel matmul Blackwell con prestazioni SOTA utilizzando MGPU? Abbiamo appena pubblicato un breve tutorial passo-passo:
Ad ogni passo, mostriamo esattamente quali (piccole) modifiche sono necessarie per affinare il kernel e il kernel finale è di poco inferiore a 150 righe.