Nysgjerrig på hvordan du skriver SOTA-ytelse Blackwell matmul-kjerner ved hjelp av MGPU? Vi har nettopp publisert en kort trinn-for-trinn-veiledning: På hvert trinn viser vi nøyaktig hvilke (små) endringer som er nødvendige for å avgrense kjernen, og den endelige kjernen er i underkant av 150 linjer.