Nyfiken på hur man skriver SOTA-prestanda Blackwell matmul-kärnor med MGPU? Vi har precis publicerat en kort steg-för-steg-handledning:
Vid varje steg visar vi exakt vilka (små) ändringar som är nödvändiga för att förfina kärnan och den slutliga kärnan är strax under 150 rader.