Taalas запускает Llama 3 8B на 16k токенов в секунду на пользователя. Это почти порядок величины увеличения даже по сравнению с системами на основе SRAM, такими как Cerebras. Ключевая идея: каждый чип специализирован для данной модели. Чип — это модель. Демонстрация чата довольно дикая: