Cada especialista em Paris @bageldotcom foi treinado isoladamente em diferentes clusters de hardware em todos os continentes. Nenhum gradiente, parâmetro ou ativação foi compartilhado durante o treinamento. Um roteador de transformador leve posteriormente selecionou os especialistas durante a inferência.