Oletko utelias kirjoittamaan SOTA-suorituskykyä Blackwell matmul -ytimiä MGPU:n avulla? Julkaisimme juuri lyhyen vaiheittaisen opetusohjelman:
Jokaisessa vaiheessa näytämme tarkalleen, mitä (pieniä) muutoksia tarvitaan ytimen tarkentamiseen, ja lopullinen ydin on hieman alle 150 riviä.