Durante la conferencia NeurIPS 2025 del mes pasado, @agupta de YC se sentó con @krandiash, fundador y CEO de Cartesia, para explicar por qué las arquitecturas de IA de hoy pueden estar fundamentalmente limitadas. Discuten cómo los transformadores actúan más como sistemas de recuperación que como sistemas de aprendizaje, dónde encajan los nuevos enfoques de modelos y qué puede requerir la verdadera inteligencia multimodal. También abordan por qué Cartesia comenzó con IA de voz y cómo los equipos liderados por la investigación convierten la investigación profunda en productos reales. 00:11 — Presentando a Cartesia 00:26 — De la Investigación en Arquitectura a la Startup 01:20 — Lo que Realmente Significa "Investigación en Arquitectura" 02:18 — Por qué los Transformadores Alcanzan un Techo 03:33 — Modelos de Espacio de Estado Explicados 04:21 — Inteligencia como Compresión 05:47 — Recuperación vs. Abstracción 06:41 — Arquitecturas Híbridas y el Futuro 07:13 — Por qué Cartesia Elegió IA de Voz 08:25 — Lo que Realmente Significa la Multimodalidad 09:20 — Audio como una Receta para Otras Modalidades 10:09 — Tokens, Representaciones y Señales de Aprendizaje 11:37 — Aprendiendo Representaciones de Extremo a Extremo 12:29 — Construyendo para el "Humano Promedio" 13:54 — Investigación vs. Realidad del Producto 15:18 — Una Visión, Ejecutada Rigurosamente 16:28 — El Producto como un Suero de Verdad para la Investigación 17:25 — La Gravedad de las Startups También se Aplica a la Investigación