Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kunngjøring av kunstig analyse Long Context Reasoning (AA-LCR), en ny målestokk for å evaluere ytelse i lang kontekst gjennom testing av resonneringsevner på tvers av flere lange dokumenter (~100k tokens)
Fokuset til AA-LCR er å replikere reelt kunnskapsarbeid og resonneringsoppgaver, teste kapasitet som er kritisk for moderne AI-applikasjoner som spenner over dokumentanalyse, kodebaseforståelse og komplekse flertrinns arbeidsflyter.
AA-LCR er 100 vanskelige tekstbaserte spørsmål som krever resonnement på tvers av flere virkelige dokumenter som representerer ~100k inndatatokens. Spørsmål er utformet slik at svar ikke kan bli funnet direkte, men må resonneres fra flere informasjonskilder, med menneskelig testing som bekrefter at hvert spørsmål krever ekte slutning i stedet for gjenfinning.
Viktige takeaways:
➤ Dagens ledende modeller oppnår ~70 % nøyaktighet: de tre øverste plassene går til OpenAI o3 (69 %), xAI Grok 4 (68 %) og Qwen3 235B 2507 Thinking (67 %)
➤ 👀 Vi har også allerede gpt-oss-resultater! 120B yter nær o4-mini (høy), i tråd med OpenAI-påstander angående modellytelse. Vi vil snart følge opp med en Intelligence Index for modellene.
➤ 100 vanskelige tekstbaserte spørsmål som spenner over 7 kategorier av dokumenter (selskapsrapporter, bransjerapporter, myndighetskonsultasjoner, akademia, juridisk, markedsføringsmateriell og undersøkelsesrapporter)
➤ ~100K tokens med input per spørsmål, noe som krever at modellene støtter et minimum 128K kontekstvindu for å score på denne referansen
➤ ~3M totalt unike inngangstokener som strekker seg over ~230 dokumenter for å kjøre referansen (utgangstokener varierer vanligvis etter modell)
➤ Lenke til datasett på 🤗 @HuggingFace er nedenfor
Vi legger til AA-LCR i Artificial Analysis Intelligence Index, og tar versjonsnummeret til v2.2. Artificial Analysis Intelligence Index v2.2 inkluderer nå: MMLU-Pro, GPQA Diamond, AIME 2025, IFBench, LiveCodeBench, SciCode og AA-LCR.
Alle tall er oppdatert på siden nå. Finn ut hvilke modeller Artificial Analysis Intelligence Index v2.2 👇

28,39K
Topp
Rangering
Favoritter