Mỗi chuyên gia Paris của @bageldotcom được đào tạo riêng biệt trên các cụm phần cứng khác nhau trên các châu lục. Không có gradient, tham số hoặc kích hoạt nào được chia sẻ trong quá trình đào tạo. Một bộ định tuyến transformer nhẹ sau đó đã chọn các chuyên gia trong quá trình suy diễn.