Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tapaa LFM2-8B-A1B, ensimmäinen laitteessa toimiva asiantuntijasekoituksemme (MoE)! 🐘
> LFM2-8B-A1B on paras laitteen MoE sekä laadultaan että nopeudeltaan.
> 3B-4B-malliluokan suorituskyky jopa 5 kertaa nopeammalla päättelyprofiililla suorittimissa ja grafiikkasuorittimissa.
> Quantized -versiot sopivat mukavasti huippuluokan puhelimiin, tabletteihin ja kannettaviin tietokoneisiin.
Nopeiden, yksityisten ja matalan viiveen sovellusten käyttöönotto nykyaikaisissa puhelimissa, tableteissa, kannettavissa tietokoneissa ja sulautetuissa järjestelmissä.
1/n 🧵

LFM2-8B-A1B:llä on suurempi tietokapasiteetti kuin kilpailevilla malleilla, ja se on koulutettu tarjoamaan laadukasta päättelyä useilla eri ominaisuuksilla. Mukaan luettuna:
> Tieto
> Seuraava ohje
> Matematiikka
> Kielen käännös
2/n

Arkkitehtuuri. Suurin osa MoE:n tutkimuksesta keskittyy pilvimalleihin laajamittaisissa eräpalveluasetuksissa. Laitteessa olevissa sovelluksissa tärkeintä on optimoida latenssi ja energiankulutus tiukoilla muistivaatimuksilla. LFM2-8B-A1B on yksi ensimmäisistä malleista, joka haastaa yleisen uskomuksen, jonka mukaan MoE-arkkitehtuuri ei ole tehokas pienemmillä parametrikokoilla. LFM2-8B-A1B mahdollistaa hieman suuremman muistijalanjäljen vaihtamisen paremman laadun saavuttamiseksi säilyttäen samalla alhaisen latenssin ja energiankulutuksen.
LFM2-8B-A1B säilyttää LFM2:n nopean runkoverkon ja esittelee harvat MoE-välitysverkot, jotka lisäävät esityskapasiteettia lisäämättä merkittävästi aktiivista laskentapolkua.
> LFM2-runkoverkko: 18 aidattua lyhyttä konvoluutiolohkoa ja 6 GQA-lohkoa.
> Koko: 8.3 miljardia parametria yhteensä, 1.5 miljardia aktiivista parametria.
> MoE-sijoitus: Kahta ensimmäistä kerrosta lukuun ottamatta kaikki kerrokset sisältävät MoE-lohkon. Kaksi ensimmäistä kerrosta pysyvät tiheinä vakaussyistä.
> Asiantuntijan tarkkuus: 32 asiantuntijaa MoE-lohkoa kohden, ja tokenia kohden sovelletaan 4 parasta aktiivista asiantuntijaa. Tämä kokoonpano tarjoaa vahvan laadun parannuksen pienempiin rakeisuuteen verrattuna säilyttäen samalla nopean reitityksen ja kannettavat ytimet.
> Reititin: Normalisoitu sigmoidinen portti mukautuvilla reititysharhoilla parantaa kuormituksen tasapainotusta ja harjoitusdynamiikkaa.
3/n

Suorittimen laitteissa LFM2-8B-A1B on huomattavasti nopeampi kuin Qwen3-1.7B:n, IBM Granite 4.0:n ja muiden nopeimmat versiot.
4/n

Sen lisäksi, että integroimme LFM2-8B-A1B:n llama.cpp- ja ExecuTorchiin päättelytehokkuuden vahvistamiseksi vain suorittimella varustetuissa laitteissa, olemme myös integroineet mallin vLLM:ään, jotta voimme ottaa sen käyttöön GPU:ssa sekä yhden pyynnön että online-eräasetuksissa.
8B LFM2 MoE -mallimme ei ainoastaan päihitä vastaavan kokoisia malleja suorittimella, vaan myös loistaa samoja malleja vastaan GPU:lla (1xH100) täydellä CUDA-graafin kääntämisellä dekoodauksen aikana ja palakohtaisella CUDA-graafilla esitäytön aikana.
5/n

54,43K
Johtavat
Rankkaus
Suosikit