Podczas zeszłomiesięcznej konferencji NeurIPS 2025, @agupta z YC usiadł z @krandiash, założycielem i dyrektorem generalnym Cartesia, aby wyjaśnić, dlaczego dzisiejsze architektury AI mogą być zasadniczo ograniczone. Dyskutują o tym, jak transformatory działają bardziej jak systemy wyszukiwania niż systemy uczenia się, gdzie pasują nowe podejścia modelowe oraz co może być wymagane do prawdziwej inteligencji multimodalnej. Poruszają również, dlaczego Cartesia zaczęła od AI głosowego i jak zespoły oparte na badaniach przekształcają głębokie badania w rzeczywiste produkty. 00:11 — Wprowadzenie do Cartesia 00:26 — Od badań architektonicznych do startupu 01:20 — Co naprawdę oznacza „badania architektoniczne” 02:18 — Dlaczego transformatory osiągają sufit 03:33 — Wyjaśnienie modeli przestrzeni stanów 04:21 — Inteligencja jako kompresja 05:47 — Wyszukiwanie vs. Abstrakcja 06:41 — Hybrydowe architektury i przyszłość 07:13 — Dlaczego Cartesia wybrała AI głosowe 08:25 — Co naprawdę oznacza multimodalność 09:20 — Dźwięk jako przepis na inne modalności 10:09 — Tokeny, reprezentacje i sygnały uczenia się 11:37 — Uczenie reprezentacji end-to-end 12:29 — Budowanie dla „przeciętnego człowieka” 13:54 — Badania vs. rzeczywistość produktu 15:18 — Jedna wizja, bezwzględnie realizowana 16:28 — Produkt jako prawdziwy serum dla badań 17:25 — Grawitacja startupów dotyczy również badań