每个巴黎专家由 @bageldotcom 在不同的硬件集群上进行隔离训练,分布在各大洲。 在训练过程中,没有共享梯度、参数或激活。 一个轻量级的变压器路由器随后在推理过程中选择了这些专家。