Hlasový agent poháněný gpt-oss. Běží lokálně na mém macBooku. Demo nahrané ve Waymo s vypnutou WiFi. Pořád jsem na své vesmírné hře s umělou inteligencí, samozřejmě. Odkaz na kód níže. U konverzační hlasové umělé inteligence chcete nastavit chování uvažování gpt-oss na "nízké". (Výchozí je "střední".) Poznámky k tomu, jak to udělat, a šablona jinja, kterou můžete použít, jsou v repozitáři. LLM v ukázkovém videu je velká, 120B verze gpt-oss. K tomu můžete samozřejmě použít menší, 20B model. Ale OpenAI zde opravdu udělala skvělou věc, když navrhla model 120B tak, aby běžel na "pouhých" 80 GB VRAM. A odvozování llama.cpp mlx je rychlé: ~250 ms TTFT. Spuštění velkého modelu na zařízení mi připadá jako časová smyčka do budoucnosti umělé inteligence.
196,3K