Chaque expert de Paris par @bageldotcom a été formé en isolation sur différents clusters matériels à travers les continents. Aucun gradient, paramètre ou activation n'a été partagé pendant l'entraînement. Un routeur transformateur léger a ensuite sélectionné les experts lors de l'inférence.