Каждый эксперт из Парижа от @bageldotcom обучался в изоляции на разных аппаратных кластерах по всему миру. Во время обучения не делились ни градиенты, ни параметры, ни активации. Позже легкий трансформаторный маршрутизатор выбирал экспертов во время вывода.