Under förra månadens NeurIPS 2025-konferens satte sig YC:s @agupta ner med @krandiash, grundare och VD för Cartesia, för att förklara varför dagens AI-arkitekturer kan vara fundamentalt begränsade. De diskuterar hur transformers fungerar mer som återhämtningssystem än inlärningssystem, var nya modellmetoder passar in, och vad sann multimodal intelligens kan kräva. De tar också upp varför Cartesia började med AI-röst och hur forskningsledda team omvandlar djup forskning till verkliga produkter. 00:11 — Presenterar Cartesia 00:26 — Från arkitekturforskning till startup 01:20 — Vad "arkitekturforskning" egentligen betyder 02:18 — Varför transformatorer når ett tak 03:33 — Tillståndsrymdmodeller förklarade 04:21 — Intelligens som kompression 05:47 — Återvinning vs. abstraktion 06:41 — Hybridarkitekturer och framtiden 07:13 — Varför Cartesia valde röst-AI 08:25 — Vad multimodalitet egentligen betyder 09:20 — Ljud som recept för andra modaliteter 10:09 — Tokens, representationer och inlärningssignaler 11:37 — Att lära sig representationer från början till slut 12:29 — Byggnad för "genomsnittsmänniskan" 13:54 — Forskning vs. Produktverklighet 15:18 — En vision, skoningslöst utförd 16:28 — Produkt som sanningsserum för forskning 17:25 — Startup-gravitation gäller även forskning