Tohtori Yu Sunin tutkimus: Tekoälyn edistäminen hyperbolisella laskennalla Tohtori Yu Sun työntää yhdessä Stanfordin, UC Berkeleyn, UCSD:n ja UT Austinin tutkijoiden kanssa generatiivisen tekoälyn rajoja Hyperbolic Labsin GPU-infrastruktuurin avulla. Kaksi läpimurtoprojektia: minuutin mittainen videontuotanto ja mukautuvat RNN:t. 🧵
Minuutin mittainen videon luominen 🎥 Useimmat videomallit, kuten Sora ja Veo, korkki ~20 sekunnissa. Sunin tiimi esitteli Test-Time Training (TTT) -kerrokset – adaptiiviset hermotilat, jotka kehittyvät päättelyn yhteydessä – mikä mahdollistaa 1 minuutin videot yhdestä kehotteesta ilman jälkimuokkausta.
Infra ja tulokset > 256× NVIDIA H100s @hyperbolic_ai kautta > Malli: 5B param CogVideo-X > Kontekstin pituus: 300 000 merkkiä > Käyttöaika: 50 GPU-tuntia > Tietojoukko: 7 tuntia kuvakäsikirjoitettuja sarjakuvia > +34 Elo vs Mamba 2 -perustaso > Paperi 📄
RNN:t, joissa on ilmeikkäitä piilotettuja tiloja 🔁 Tavalliset RNN:t heikkenevät yli 16k tokenin. Tohtori Sunin tiimi rakensi TTT-lineaarisen ja TTT-MLP:n – piilotetut tilat, jotka ovat opittavissa olevia hermoverkkoja. Nämä mukautuvat päättelyn aikana käyttämällä gradienttipohjaista itsevalvontaa.
Tulokset > Kontekstin pituus: 32 000 merkkiä > Mallin mittakaava: 125M - 1.3B parametrit > Käyttöajan nopeus: 5× kaksimuotoisen optimoinnin avulla > Lineaarinen aika, vakiomuisti > Parempi tai vastaa Transformeria, Mambaa ja DeltaNetiä > Koodi:
Hyperbolinen infra = tutkimuksen mahdollistaja Hyperbolicin vakaat, korkean suorituskyvyn H100-klusterit tukivat 300k-tokenin käsittelyä, pysyviä ympäristöjä sisäisen silmukan optimointiin ja skaalautuvia resursseja FLOP-sovitettuihin kokeiluihin.
"Hyperbolicin H100-grafiikkasuorittimet ja -palvelut tarjosivat luotettavuuden, jonka avulla pystyimme prototyyppiä tutkimuksestamme testiaikaisessa koulutuksessa. Heidän infrastruktuurinsa helpotti malliemme skaalaamista minuutin mittaisten videoiden luomiseksi tekstikuvakäsikirjoituksista. Pystyimme keskittymään tutkimukseen sen sijaan, että olisimme käsitelleet infrastruktuurikysymyksiä." - Tohtori Yu Sun
Generatiivisen tekoälyn ja sekvenssimallinnuksen tulevaisuus on täällä. TTT-kerrosten ja skaalautuvan laskennan avulla avautuu uusia rajoja. Vuokraa on-demand-grafiikkasuorittimet nyt osoitteesta Katso koko blogi:
10,73K