在上個月的 NeurIPS 2025 會議上,YC 的 @agupta 與 Cartesia 的創始人兼 CEO @krandiash 坐下來解釋為什麼當今的 AI 架構可能在根本上受到限制。 他們討論了變壓器如何更像檢索系統而不是學習系統,新模型方法的適用位置,以及真正的多模態智能可能需要什麼。他們還談到了為什麼 Cartesia 從 AI 語音開始,以及以研究為主導的團隊如何將深度研究轉化為實際產品。 00:11 — 介紹 Cartesia 00:26 — 從架構研究到創業公司 01:20 — “架構研究”真正的含義 02:18 — 為什麼變壓器達到了天花板 03:33 — 狀態空間模型解釋 04:21 — 智能作為壓縮 05:47 — 檢索與抽象 06:41 — 混合架構與未來 07:13 — 為什麼 Cartesia 選擇語音 AI 08:25 — 多模態實際上意味著什麼 09:20 — 音頻作為其他模態的食譜 10:09 — 令牌、表示和學習信號 11:37 — 端到端學習表示 12:29 — 為“普通人”構建 13:54 — 研究與產品現實 15:18 — 一個願景,無情執行 16:28 — 產品作為研究的真相血清 17:25 — 創業重力同樣適用於研究