Ciekawi Cię, jak napisać wydajność SOTA dla rdzeni matmul Blackwell używając MGPU? Właśnie opublikowaliśmy krótki poradnik krok po kroku: Na każdym etapie pokazujemy dokładnie, jakie (małe) zmiany są konieczne, aby udoskonalić rdzeń, a finalny rdzeń ma nieco poniżej 150 linii.