DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Du är i en intervju med Research Scientist på OpenAI. Intervjuaren frågar: "Hur skulle du utöka kontextlängden för en LLM från 2K till 128K tokens?" Du: "Jag kommer att finjustera modellen på längre dokument med 128K-kontext" Intervjun är över. Här är vad du missade:

Att utöka kontextfönstret handlar inte bara om större matriser. I en traditionell transformator ökar expansionen av tokens med 8x minnesbehovet med 64x på grund av den kvadratiska komplexiteten i uppmärksamheten. Se bilden nedan! Så, hur hanterar vi det? fortsätta... 👇

1) Sparsam uppmärksamhet Den begränsar uppmärksamhetsberäkningen till en delmängd av token genom att: - Använda lokal uppmärksamhet (tokens tar endast hand om sina grannar). - Låta modellen lära sig vilka tokens som ska fokuseras på. Men detta innebär en kompromiss mellan beräkningskomplexitet och prestanda.

En liknande idé användes i ModernBERT. → Full global uppmärksamhet var 3:e lager → Lokal uppmärksamhet (128 tokens) annars Resultat: - 16x större sekvenslängd - Mycket bättre prestanda - Den mest minneseffektiva kodaren Enkelt men ändå kraftfullt. 👇

Här är en intuitiv förklaring hämtad från tidningen: Föreställ dig att du läser en bok. För varje mening du läser, behöver du vara fullt medveten om hela handlingen för att förstå det mesta av den (full global uppmärksamhet)? Eller räcker det med att vara medveten om det aktuella kapitlet (lokal uppmärksamhet), så länge du då och då tänker tillbaka på dess betydelse för huvudhandlingen (global uppmärksamhet)? I de allra flesta fall är det det senare.

2) Blixt uppmärksamhet Detta är en snabb och minneseffektiv metod som behåller exaktheten hos traditionella uppmärksamhetsmekanismer, dvs. den använder global uppmärksamhet men effektivt. Hela idén kretsar kring att optimera dataförflyttningen i GPU-minnet. Låt oss förstå!

Lite bakgrundsinformation: - En tråd är den minsta körningsenheten. - Flera trådar bildar ett block. Också: - Trådar i ett block delar ett snabbt (men knappt) minne som kallas SRAM. - Alla block delar ett globalt minne som kallas HBM (abundant but slow). Kolla in det här 👇

Uppmärksamheten rör sig mot stora matriser mellan SRAM och HBM: Så här beräknar du QK: - fördela matriser till gängor - beräkna, och - skicka produkten till HBM Så här beräknar du softmax: - Distribuera produkten till gängor - beräkna, och - skicka utdata till HBM Upprepa för alla lager. Kolla in det här 👇

Flash-uppmärksamhet innebär optimeringar på hårdvarunivå där den använder SRAM för att cachelagra de mellanliggande resultaten. På så sätt minskar den överflödiga rörelser och erbjuder en hastighet på upp till 7,6 gånger jämfört med vanliga uppmärksamhetsmetoder. Kolla in det här 👇

98,94K

Topp

Rankning

Favoriter