Durante la conferencia NeurIPS 2025 del mes pasado, el @agupta de YC se sentó con @krandiash, fundador y CEO de Cartesia, para explicar por qué las arquitecturas de IA actuales pueden estar fundamentalmente limitadas. Analizan cómo los transformers actúan más como sistemas de recuperación que de aprendizaje, dónde encajan los nuevos enfoques de modelos y qué puede requerir una verdadera inteligencia multimodal. También explican por qué Cartesia comenzó con la voz de IA y cómo los equipos basados en investigación convierten investigaciones profundas en productos reales. 00:11 — Presentando a Cartesia 00:26 — De la investigación en arquitectura a la startup 01:20 — Lo que realmente significa "investigación arquitectónica" 02:18 — Por qué los transformadores alcanzan un techo 03:33 — Explicación de los modelos del espacio de estados 04:21 — La inteligencia como compresión 05:47 — Recuperación vs. Abstracción 06:41 — Arquitecturas híbridas y el futuro 07:13 — Por qué Cartesia eligió la IA de voz 08:25 — Qué significa realmente la multimodalidad 09:20 — Audio como receta para otras modalidades 10:09 — Fichas, representaciones y señales de aprendizaje 11:37 — Aprendiendo representaciones de extremo a extremo 12:29 — Edificio para el "Humano Medio" 13:54 — Investigación vs. Realidad del producto 15:18 — Una visión, ejecutada sin piedad 16:28 — Producto como suero de la verdad para la investigación 17:25 — La gravedad de las startups también se aplica a la investigación