Kurczę, ludzie są głodni wejść głosowych.
Klawiatury i myszy były tymczasowym rozwiązaniem, chociaż czasami muszę pisać, żeby myśleć, a piszę szybciej niż piszę odręcznie (oczywiście). Mysz również wydaje się szybsza niż dotyk, gdy już się jej nauczysz—wyobraź sobie profesjonalne gry wideo na głosie i dotyku. Dziwne, jak odkryliśmy te medium wejściowe bez zbyt wielu prób i błędów... mimo to, ludzie są głodni głosu.
Dziś rano pomyślałem, że trochę pociągnę Claude Code. Poprosiłem go, aby uruchomił rozpoznawanie mowy na moim laptopie, używając modelu Parakeet 0.6b od NVIDIA.
Mniej niż dwie godziny później miałem rozpoznawanie mowy lepsze niż Whisper od OpenAI działające lokalnie na procesorze mojego laptopa, transkrybując na bieżąco, podczas gdy mówiłem. I nigdy nie otworzyłem niczego poza Claude Code w tym projekcie – wszystko działo się w jednym oknie kontekstowym, w tym instalacje zależności i wszystko inne!
Następnym razem musimy być jeszcze bardziej ambitni.
Za każdym razem myślę, ach, o nie, dspy nie obsługuje tego... ale dzięki temu, że jest otwarto-źródłowy i mogę zbadać kod, mogę po prostu zmienić odpowiednią rzecz w odpowiednim miejscu i bum!
Tylko z tym kodem poniżej możesz sprawić, że wszyscy optymalizatorzy DSPy będą optymalizować na liście modeli jednocześnie, znajdując prompt, który jest 'ogólnie dobry' dla tych modeli.
ps: pierwszy raz subklasuję jak prawdziwy programista obiektowy, samodzielnie 😎