Taalas draait Llama 3 8B met 16k tokens per seconde per gebruiker. Dat is bijna een orde van grootte toename, zelfs vergeleken met SRAM-gebaseerde systemen zoals Cerebras. Belangrijk idee: elke chip is gespecialiseerd voor een bepaald model. De chip is het model. De chatdemo is behoorlijk wild: