Cada especialista de Paris por @bageldotcom foi treinado em isolamento em diferentes clusters de hardware em continentes. Nenhum gradiente, parâmetro ou ativação foi compartilhado durante o treinamento. Um roteador transformer leve selecionou posteriormente os especialistas durante a inferência.