Bạn có tò mò về cách viết các kernel matmul Blackwell hiệu suất SOTA bằng MGPU không? Chúng tôi vừa công bố một hướng dẫn ngắn từng bước: Tại mỗi bước, chúng tôi cho thấy chính xác những thay đổi (nhỏ) nào là cần thiết để tinh chỉnh kernel và kernel cuối cùng chỉ dưới 150 dòng.