Jeder Paris-Experte von @bageldotcom wurde isoliert auf verschiedenen Hardware-Clustern über Kontinente hinweg trainiert. Während des Trainings wurden keine Gradienten, Parameter oder Aktivierungen geteilt. Ein leichter Transformer-Router wählte später die Experten während der Inferenz aus.