每位巴黎專家由 @bageldotcom 在不同大陸的獨立硬體叢集上進行訓練。 訓練過程中沒有共享梯度、參數或激活。 後來,一個輕量級的變壓器路由器在推理過程中選擇了這些專家。