Цікаво, як написати ядра матмула SOTA performance Blackwell за допомогою MGPU? Ми щойно опублікували коротку покрокову інструкцію: На кожному кроці ми показуємо, які саме (невеликі) зміни необхідні для вдосконалення ядра, і кінцеве ядро становить трохи менше 150 рядків.