En stemmeagent drevet av gpt-oss. Kjører lokalt på min macBook. Demo spilt inn i en Waymo med WiFi slått av. Jeg er fortsatt på romspillets stemme-AI-spark, åpenbart. Kodelenke nedenfor. For samtalestemme-AI vil du sette gpt-oss-resonnementatferden til "lav". (Standard er "middels".) Merknader om hvordan du gjør det og en jinja-mal du kan bruke er i repoen. LLM i demovideoen er den store 120B-versjonen av gpt-oss. Du kan selvfølgelig bruke den mindre 20B-modellen til dette. Men OpenAI gjorde virkelig en kul ting her og designet 120B-modellen til å kjøre i "bare" 80 GB VRAM. Og llama.cpp mlx-slutning er rask: ~250ms TTFT. Å kjøre en stor modell på enheten føles som en tidsforskyvning inn i fremtiden for AI.
196,3K