تالاس يشغل Llama 3 8B بمعدل 16 ألف رمز في الثانية لكل مستخدم. وهذا يمثل زيادة تكاد تكون بمقدار كبير حتى مقارنة بأنظمة SRAM مثل Cerebras. الفكرة الأساسية: كل شريحة متخصصة لنموذج معين. الشريحة هي النموذج. عرض الدردشة التوضيحي مذهل جدا: