În cadrul conferinței NeurIPS 2025 de luna trecută, @agupta YC a stat de vorbă cu @krandiash, fondatorul și CEO-ul Cartesia, pentru a explica de ce arhitecturile AI de astăzi pot fi fundamental limitate. Ei discută despre modul în care transformerii acționează mai mult ca sisteme de recuperare decât sisteme de învățare, unde se potrivesc noile abordări modele și ce ar putea necesita o inteligență multimodală adevărată. De asemenea, explică de ce Cartesia a început cu AI voice și cum echipele conduse de cercetare transformă cercetarea profundă în produse reale. 00:11 — Prezentarea cărții 00:26 — De la cercetare în arhitectură la startup 01:20 — Ce înseamnă cu adevărat "cercetare în arhitectură" 02:18 — De ce transformatoarele ating un plafon 03:33 — Modelele spațiului de stare explicate 04:21 — Inteligența ca compresie 05:47 — Recuperare vs. Abstracție 06:41 — Arhitecturi hibride și viitor 07:13 — De ce a ales Cartesia AI-ul vocal 08:25 — Ce înseamnă de fapt multimodalitatea 09:20 — Sunetul ca rețetă pentru alte modalități 10:09 — Jetoane, Reprezentări și Semnale de Învățare 11:37 — Învățarea reprezentărilor de la un capăt la altul 12:29 — Clădirea pentru "omul obișnuit" 13:54 — Cercetare vs. Realitatea produsului 15:18 — O viziune, executată fără milă 16:28 — Produs ca ser al adevărului pentru cercetare 17:25 — Gravitația startup-ului se aplică și cercetării