MGPUを使用してSOTAパフォーマンスBlackwell matmulカーネルを記述する方法に興味がありますか?短いステップバイステップのチュートリアルを公開しました。 各ステップで、カーネルを改良するためにどのような(小さな)変更が必要かを正確に示し、最終的なカーネルは150行弱です。