Cada experto de París de @bageldotcom fue entrenado de forma aislada en diferentes clústeres de hardware a través de continentes. No se compartieron gradientes, parámetros ni activaciones durante el entrenamiento. Un enrutador de transformador ligero seleccionó posteriormente a los expertos durante la inferencia.