DeepSeek-V3.2 montre : - Les puces chinoises sont en hausse : support Day-0 pour Huawei Ascend et Cambricon ; - Compilateur ML : DeepSeek utilise TileLang, vous permettant d'écrire en Python → compiler en noyaux optimisés sur divers matériels. Par exemple, 80 lignes de Python peuvent atteindre 95 % des performances de FlashMLA (CUDA écrit à la main). Sous le capot de TileLang se trouve TVM, un compilateur ML sur lequel j'ai travaillé pendant des années avec la grande communauté open-source. À mesure que le paysage matériel se diversifie (GPU Nvidia, puces chinoises et puces axées sur l'inférence), les compilateurs ML brilleront à nouveau.
Si vous êtes nouveau dans les compilateurs ML, je recommande vivement le cours MLC de @tqchenml à CMU, il contient des vidéos et du code : . Il utilise la pile TVM (IR au niveau graphique : relax + IR au niveau tensoriel : TensorIR) comme exemples, mais les idées générales s'appliquent à d'autres compilateurs ML.
@tqchenml Wow
90,66K