Durante a conferência NeurIPS 2025 do mês passado, o @agupta da YC conversou com @krandiash, fundador e CEO da Cartesia, para explicar por que as arquiteturas de IA atuais podem ser fundamentalmente limitadas. Eles discutem como os transformers agem mais como sistemas de recuperação do que sistemas de aprendizagem, onde novas abordagens de modelo se encaixam e o que a verdadeira inteligência multimodal pode exigir. Eles também abordam por que a Cartesia começou com voz de IA e como equipes orientadas por pesquisa transformam pesquisas profundas em produtos reais. 00:11 — Apresentando a Cartesia 00:26 — Da Pesquisa em Arquitetura ao Startup 01:20 — O que "pesquisa em arquitetura" realmente significa 02:18 — Por que os transformadores atingem um teto 03:33 — Modelos do Espaço de Estado Explicados 04:21 — Inteligência como Compressão 05:47 — Recuperação vs. Abstração 06:41 — Arquiteturas Híbridas e o Futuro 07:13 — Por que Cartesia Escolheu a IA de Voz 08:25 — O que Multimodalidade Realmente Significa 09:20 — Áudio como Receita para Outras Modalidades 10:09 — Fichas, Representações e Sinais de Aprendizagem 11:37 — Aprendendo Representações de Ponta a Ponta 12:29 — Prédio para o "Humano Comum" 13:54 — Pesquisa vs. Realidade do Produto 15:18 — Uma Visão, Executada Sem Piedade 16:28 — Produto como Soro da Verdade para Pesquisa 17:25 — A gravidade da startup também se aplica à pesquisa