На конференции NeurIPS 2025 в прошлом месяце @agupta из YC встретился с @krandiash, основателем и CEO Cartesia, чтобы объяснить, почему современные архитектуры ИИ могут быть фундаментально ограничены. Они обсуждают, как трансформеры действуют больше как системы поиска, чем как обучающие системы, где подходят новые подходы к моделям и что может потребоваться для истинного мультимодального интеллекта. Они также рассказывают, почему Cartesia начала с голосового ИИ и как исследовательские команды превращают глубокие исследования в реальные продукты. 00:11 — Введение в Cartesia 00:26 — От архитектурных исследований к стартапу 01:20 — Что на самом деле означает "архитектурные исследования" 02:18 — Почему трансформеры достигли потолка 03:33 — Объяснение моделей состояния пространства 04:21 — Интеллект как сжатие 05:47 — Поиск против абстракции 06:41 — Гибридные архитектуры и будущее 07:13 — Почему Cartesia выбрала голосовой ИИ 08:25 — Что на самом деле означает мультимодальность 09:20 — Аудио как рецепт для других модальностей 10:09 — Токены, представления и сигналы обучения 11:37 — Обучение представлениям от начала до конца 12:29 — Создание для "среднего человека" 13:54 — Исследования против реальности продукта 15:18 — Одна визия, безжалостно реализованная 16:28 — Продукт как правдивый сыворотка для исследований 17:25 — Гравитация стартапов также применима к исследованиям