Cada experto de París por @bageldotcom fue capacitado de forma aislada en diferentes clústeres de hardware en todos los continentes. No se compartieron gradientes, parámetros o activaciones durante el entrenamiento. Más tarde, un enrutador de transformador liviano seleccionó a los expertos durante la inferencia.