Taalas betreibt Llama 3 8B mit 16k Tokens pro Sekunde pro Benutzer. Das ist fast eine Größenordnung mehr im Vergleich zu SRAM-basierten Systemen wie Cerebras. Die Hauptidee: Jeder Chip ist auf ein bestimmtes Modell spezialisiert. Der Chip ist das Modell. Die Chat-Demo ist ziemlich verrückt: