Selama konferensi NeurIPS 2025 bulan lalu, @agupta YC duduk bersama @krandiash, pendiri dan CEO Cartesia, untuk menjelaskan mengapa arsitektur AI saat ini mungkin terbatas secara fundamental. Mereka membahas bagaimana transformator bertindak lebih seperti sistem pengambilan daripada sistem pembelajaran, di mana pendekatan model baru cocok, dan apa yang mungkin dibutuhkan kecerdasan multimoda sejati. Mereka juga membahas mengapa Cartesia memulai dengan suara AI dan bagaimana tim yang dipimpin penelitian mengubah penelitian mendalam menjadi produk nyata. 00:11 — Memperkenalkan Cartesia 00:26 — Dari Riset Arsitektur hingga Startup 01:20 — Apa Arti Sebenarnya "Penelitian Arsitektur" 02:18 — Mengapa Transformer Menabrak Langit-langit 03:33 — Model Ruang Negara Dijelaskan 04:21 — Kecerdasan sebagai Kompresi 05:47 — Pengambilan vs. Abstraksi 06:41 — Arsitektur Hibrida dan Masa Depan 07:13 — Mengapa Cartesia Memilih AI Suara 08:25 — Apa Arti Multimodalitas Sebenarnya 09:20 — Audio sebagai Resep untuk Modalitas Lain 10:09 — Token, Representasi, dan Sinyal Pembelajaran 11:37 — Representasi Pembelajaran End-to-End 12:29 — Membangun untuk "Manusia Biasa" 13:54 — Riset vs. Realitas Produk 15:18 — Satu Penglihatan, Dieksekusi dengan Kejam 16:28 — Produk sebagai Serum Kebenaran untuk Penelitian 17:25 — Gravitasi Startup Juga Berlaku untuk Penelitian