Интересно, как написать матричные ядра Blackwell с производительностью SOTA, используя MGPU? Мы только что опубликовали короткое пошаговое руководство: На каждом шаге мы показываем, какие (небольшие) изменения необходимы для доработки ядра, и финальное ядро состоит всего из чуть менее 150 строк.