Trong hội nghị NeurIPS 2025 tháng trước, @agupta của YC đã ngồi xuống với @krandiash, người sáng lập và CEO của Cartesia, để giải thích tại sao các kiến trúc AI ngày nay có thể bị giới hạn về mặt cơ bản. Họ thảo luận về cách mà các transformer hoạt động giống như các hệ thống truy xuất hơn là các hệ thống học tập, nơi mà các phương pháp mô hình mới phù hợp, và trí thông minh đa phương thức thực sự có thể yêu cầu điều gì. Họ cũng đề cập đến lý do tại sao Cartesia bắt đầu với AI giọng nói và cách mà các đội ngũ nghiên cứu dẫn dắt biến nghiên cứu sâu thành các sản phẩm thực tế. 00:11 — Giới thiệu về Cartesia 00:26 — Từ Nghiên cứu Kiến trúc đến Khởi nghiệp 01:20 — “Nghiên cứu Kiến trúc” Thực sự Có Nghĩa Gì 02:18 — Tại Sao Các Transformer Đạt Đến Trần 03:33 — Mô Hình Không Gian Trạng Thái Được Giải Thích 04:21 — Trí Thông Minh Như Một Sự Nén 05:47 — Truy Xuất so với Trừu Tượng 06:41 — Kiến Trúc Lai và Tương Lai 07:13 — Tại Sao Cartesia Chọn AI Giọng Nói 08:25 — Đa Phương Thức Thực Sự Có Nghĩa Gì 09:20 — Âm Thanh Như Một Công Thức Cho Các Phương Thức Khác 10:09 — Token, Đại Diện và Tín Hiệu Học Tập 11:37 — Học Đại Diện Từ Đầu Đến Cuối 12:29 — Xây Dựng Cho “Con Người Trung Bình” 13:54 — Nghiên Cứu so với Thực Tế Sản Phẩm 15:18 — Một Tầm Nhìn, Thực Hiện Một Cách Tàn Nhẫn 16:28 — Sản Phẩm Như Một Chất Serum Sự Thật Cho Nghiên Cứu 17:25 — Trọng Lực Khởi Nghiệp Cũng Áp Dụng Cho Nghiên Cứu