Während der NeurIPS 2025-Konferenz im letzten Monat setzte sich YCs @agupta mit @krandiash, dem Gründer und CEO von Cartesia, zusammen, um zu erklären, warum die heutigen KI-Architekturen möglicherweise grundlegend begrenzt sind. Sie diskutieren, wie Transformer eher wie Abrufsysteme als wie Lernsysteme agieren, wo neue Modellansätze passen und was wahre multimodale Intelligenz erfordern könnte. Sie sprechen auch darüber, warum Cartesia mit KI-Stimme begonnen hat und wie forschungsgeleitete Teams tiefgehende Forschung in echte Produkte umsetzen. 00:11 — Einführung in Cartesia 00:26 — Von der Architektur-Forschung zum Startup 01:20 — Was „Architektur-Forschung“ wirklich bedeutet 02:18 — Warum Transformer an eine Decke stoßen 03:33 — Erklärung der Zustandsraum-Modelle 04:21 — Intelligenz als Kompression 05:47 — Abruf vs. Abstraktion 06:41 — Hybride Architekturen und die Zukunft 07:13 — Warum Cartesia sich für Voice AI entschieden hat 08:25 — Was Multimodalität tatsächlich bedeutet 09:20 — Audio als Rezept für andere Modalitäten 10:09 — Tokens, Repräsentationen und Lernsignale 11:37 — Lernrepräsentationen End-to-End 12:29 — Bauen für den „durchschnittlichen Menschen“ 13:54 — Forschung vs. Produktrealität 15:18 — Eine Vision, gnadenlos umgesetzt 16:28 — Produkt als Wahrheitsserum für Forschung 17:25 — Startup-Schwerkraft gilt auch für Forschung