Durante la conferenza NeurIPS 2025 dello scorso mese, @agupta di YC si è seduto con @krandiash, fondatore e CEO di Cartesia, per spiegare perché le architetture AI di oggi potrebbero essere fondamentalmente limitate. Discutono di come i trasformatori agiscano più come sistemi di recupero che come sistemi di apprendimento, dove si inseriscono i nuovi approcci ai modelli e cosa potrebbe richiedere una vera intelligenza multimodale. Coprono anche perché Cartesia ha iniziato con l'AI vocale e come i team guidati dalla ricerca trasformano la ricerca profonda in prodotti reali. 00:11 — Introduzione a Cartesia 00:26 — Dalla Ricerca Architettonica alla Startup 01:20 — Cosa Significa Davvero "Ricerca Architettonica" 02:18 — Perché i Trasformatori Hanno Raggiunto un Limite 03:33 — Modelli di Spazio degli Stati Spiegati 04:21 — Intelligenza come Compressione 05:47 — Recupero vs. Astrazione 06:41 — Architetture Ibride e il Futuro 07:13 — Perché Cartesia Ha Scelto l'AI Vocale 08:25 — Cosa Significa Davvero la Multimodalità 09:20 — Audio come Ricetta per Altre Modalità 10:09 — Token, Rappresentazioni e Segnali di Apprendimento 11:37 — Apprendimento delle Rappresentazioni End-to-End 12:29 — Costruire per l'"Umano Medio" 13:54 — Ricerca vs. Realtà del Prodotto 15:18 — Una Visione, Eseguita Senza Pietà 16:28 — Il Prodotto come un Siero della Verità per la Ricerca 17:25 — La Gravità delle Startup Si Applica Anche alla Ricerca