Під час минуломісячної конференції NeurIPS 2025 @agupta YC поспілкувався з @krandiash, засновником і генеральним директором Cartesia, щоб пояснити, чому сучасні архітектури ШІ можуть бути фундаментально обмеженими. Вони обговорюють, як трансформери діють більше як системи пошуку, ніж як навчальні системи, де підходять нові моделі та що може вимагати справжній мультимодальний інтелект. Вони також розповідають, чому Cartesia почала з AI-голосу і як команди, керовані дослідженнями, перетворюють глибокі дослідження на реальні продукти. 00:11 — Представляємо Картезію 00:26 — Від архітектурних досліджень до стартапу 01:20 — Що насправді означає «архітектурні дослідження» 02:18 — Чому трансформери досягли стелі 03:33 — Пояснення моделей простору стану 04:21 — Інтелект як стиснення 05:47 — Retrieval vs. Abstraction 06:41 — Гібридні архітектури та майбутнє 07:13 — Чому Картезія обрала голосовий ШІ 08:25 — Що насправді означає мультимодальність 09:20 — Аудіо як рецепт для інших модальностей 10:09 — Токени, представлення та навчальні сигнали 11:37 — Вивчення репрезентацій від початку до кінця 12:29 — Будівля для «Середньостатистичної людини» 13:54 — Дослідження проти реальності продукту 15:18 — Одне видіння, безжально здійснене 16:28 — Продукт як сироватка правди для досліджень 17:25 — Гравітація запуску застосовується і до досліджень