Tapaa LFM2-8B-A1B, ensimmäinen laitteessa toimiva asiantuntijasekoituksemme (MoE)! 🐘 > LFM2-8B-A1B on paras laitteen MoE sekä laadultaan että nopeudeltaan. > 3B-4B-malliluokan suorituskyky jopa 5 kertaa nopeammalla päättelyprofiililla suorittimissa ja grafiikkasuorittimissa. > Quantized -versiot sopivat mukavasti huippuluokan puhelimiin, tabletteihin ja kannettaviin tietokoneisiin. Nopeiden, yksityisten ja matalan viiveen sovellusten käyttöönotto nykyaikaisissa puhelimissa, tableteissa, kannettavissa tietokoneissa ja sulautetuissa järjestelmissä. 1/n 🧵
LFM2-8B-A1B:llä on suurempi tietokapasiteetti kuin kilpailevilla malleilla, ja se on koulutettu tarjoamaan laadukasta päättelyä useilla eri ominaisuuksilla. Mukaan luettuna: > Tieto > Seuraava ohje > Matematiikka > Kielen käännös 2/n
Arkkitehtuuri. Suurin osa MoE:n tutkimuksesta keskittyy pilvimalleihin laajamittaisissa eräpalveluasetuksissa. Laitteessa olevissa sovelluksissa tärkeintä on optimoida latenssi ja energiankulutus tiukoilla muistivaatimuksilla. LFM2-8B-A1B on yksi ensimmäisistä malleista, joka haastaa yleisen uskomuksen, jonka mukaan MoE-arkkitehtuuri ei ole tehokas pienemmillä parametrikokoilla. LFM2-8B-A1B mahdollistaa hieman suuremman muistijalanjäljen vaihtamisen paremman laadun saavuttamiseksi säilyttäen samalla alhaisen latenssin ja energiankulutuksen. LFM2-8B-A1B säilyttää LFM2:n nopean runkoverkon ja esittelee harvat MoE-välitysverkot, jotka lisäävät esityskapasiteettia lisäämättä merkittävästi aktiivista laskentapolkua. > LFM2-runkoverkko: 18 aidattua lyhyttä konvoluutiolohkoa ja 6 GQA-lohkoa. > Koko: 8.3 miljardia parametria yhteensä, 1.5 miljardia aktiivista parametria. > MoE-sijoitus: Kahta ensimmäistä kerrosta lukuun ottamatta kaikki kerrokset sisältävät MoE-lohkon. Kaksi ensimmäistä kerrosta pysyvät tiheinä vakaussyistä. > Asiantuntijan tarkkuus: 32 asiantuntijaa MoE-lohkoa kohden, ja tokenia kohden sovelletaan 4 parasta aktiivista asiantuntijaa. Tämä kokoonpano tarjoaa vahvan laadun parannuksen pienempiin rakeisuuteen verrattuna säilyttäen samalla nopean reitityksen ja kannettavat ytimet. > Reititin: Normalisoitu sigmoidinen portti mukautuvilla reititysharhoilla parantaa kuormituksen tasapainotusta ja harjoitusdynamiikkaa. 3/n
Suorittimen laitteissa LFM2-8B-A1B on huomattavasti nopeampi kuin Qwen3-1.7B:n, IBM Granite 4.0:n ja muiden nopeimmat versiot. 4/n
Sen lisäksi, että integroimme LFM2-8B-A1B:n llama.cpp- ja ExecuTorchiin päättelytehokkuuden vahvistamiseksi vain suorittimella varustetuissa laitteissa, olemme myös integroineet mallin vLLM:ään, jotta voimme ottaa sen käyttöön GPU:ssa sekä yhden pyynnön että online-eräasetuksissa. 8B LFM2 MoE -mallimme ei ainoastaan päihitä vastaavan kokoisia malleja suorittimella, vaan myös loistaa samoja malleja vastaan GPU:lla (1xH100) täydellä CUDA-graafin kääntämisellä dekoodauksen aikana ja palakohtaisella CUDA-graafilla esitäytön aikana. 5/n
54,43K