Elke Parijs-expert van @bageldotcom werd in isolatie getraind op verschillende hardwareclusters over continenten. Er werden geen gradiënten, parameters of activaties gedeeld tijdens de training. Een lichte transformer-router selecteerde later de experts tijdens de inferentie.