在上个月的NeurIPS 2025会议上,YC的@agupta与Cartesia的创始人兼首席执行官@krandiash进行了交谈,解释了为什么今天的AI架构可能在根本上受到限制。 他们讨论了变换器如何更像检索系统而不是学习系统,新模型方法适合在哪里,以及真正的多模态智能可能需要什么。他们还讨论了为什么Cartesia从AI语音开始,以及以研究为导向的团队如何将深度研究转化为实际产品。 00:11 — 介绍Cartesia 00:26 — 从架构研究到初创公司 01:20 — “架构研究”真正意味着什么 02:18 — 为什么变换器遇到了瓶颈 03:33 — 状态空间模型解释 04:21 — 智能作为压缩 05:47 — 检索与抽象 06:41 — 混合架构与未来 07:13 — 为什么Cartesia选择语音AI 08:25 — 多模态实际上意味着什么 09:20 — 音频作为其他模态的配方 10:09 — 令牌、表示和学习信号 11:37 — 端到端学习表示 12:29 — 为“普通人”构建 13:54 — 研究与产品现实 15:18 — 一个愿景,毫不妥协地执行 16:28 — 产品作为研究的真相血清 17:25 — 初创公司的引力同样适用于研究