Durante a conferência NeurIPS 2025 do mês passado, o @agupta da YC sentou-se com @krandiash, fundador e CEO da Cartesia, para explicar por que as arquiteturas de IA de hoje podem ser fundamentalmente limitadas. Eles discutem como os transformadores agem mais como sistemas de recuperação do que como sistemas de aprendizagem, onde se encaixam novas abordagens de modelos e o que a verdadeira inteligência multimodal pode exigir. Eles também abordam por que a Cartesia começou com IA de voz e como equipes orientadas por pesquisa transformam pesquisas profundas em produtos reais. 00:11 — Introduzindo a Cartesia 00:26 — Da Pesquisa em Arquitetura para Startup 01:20 — O que “Pesquisa em Arquitetura” Realmente Significa 02:18 — Por que os Transformadores Atingem um Teto 03:33 — Modelos de Espaço de Estado Explicados 04:21 — Inteligência como Compressão 05:47 — Recuperação vs. Abstração 06:41 — Arquiteturas Híbridas e o Futuro 07:13 — Por que a Cartesia Escolheu IA de Voz 08:25 — O que Multimodalidade Realmente Significa 09:20 — Áudio como uma Receita para Outras Modalidades 10:09 — Tokens, Representações e Sinais de Aprendizagem 11:37 — Aprendendo Representações de Ponta a Ponta 12:29 — Construindo para o “Humano Médio” 13:54 — Pesquisa vs. Realidade do Produto 15:18 — Uma Visão, Executada com Rigor 16:28 — Produto como um Verdadeiro Serum para Pesquisa 17:25 — A Gravidade das Startups Também se Aplica à Pesquisa