Lors de la conférence NeurIPS 2025 du mois dernier, @agupta de YC s'est entretenu avec @krandiash, fondateur et PDG de Cartesia, pour expliquer pourquoi les architectures d'IA d'aujourd'hui peuvent être fondamentalement limitées. Ils discutent de la manière dont les transformateurs agissent plus comme des systèmes de récupération que comme des systèmes d'apprentissage, où s'insèrent les nouvelles approches de modèles, et ce que pourrait réellement nécessiter une véritable intelligence multimodale. Ils abordent également pourquoi Cartesia a commencé avec l'IA vocale et comment les équipes axées sur la recherche transforment la recherche approfondie en produits réels. 00:11 — Présentation de Cartesia 00:26 — De la recherche en architecture à la startup 01:20 — Ce que signifie vraiment "Recherche en architecture" 02:18 — Pourquoi les transformateurs atteignent un plafond 03:33 — Modèles d'espace d'état expliqués 04:21 — L'intelligence comme compression 05:47 — Récupération vs. Abstraction 06:41 — Architectures hybrides et avenir 07:13 — Pourquoi Cartesia a choisi l'IA vocale 08:25 — Ce que signifie réellement la multimodalité 09:20 — L'audio comme recette pour d'autres modalités 10:09 — Jetons, représentations et signaux d'apprentissage 11:37 — Apprentissage des représentations de bout en bout 12:29 — Construire pour l'"humain moyen" 13:54 — Recherche vs. réalité produit 15:18 — Une vision, exécutée sans relâche 16:28 — Le produit comme un sérum de vérité pour la recherche 17:25 — La gravité des startups s'applique aussi à la recherche.