Benieuwd hoe je SOTA-prestaties kunt schrijven voor Blackwell matmul-kernels met MGPU? We hebben zojuist een korte stapsgewijze tutorial gepubliceerd: Bij elke stap laten we precies zien welke (kleine) wijzigingen nodig zijn om de kernel te verfijnen en de uiteindelijke kernel is net iets minder dan 150 regels.