Neugierig, wie man SOTA-Leistung Blackwell Matmul-Kernels mit MGPU schreibt? Wir haben gerade ein kurzes Schritt-für-Schritt-Tutorial veröffentlicht: In jedem Schritt zeigen wir genau, welche (kleinen) Änderungen notwendig sind, um den Kernel zu verfeinern, und der endgültige Kernel umfasst gerade einmal 150 Zeilen.