Kunngjøring av kunstig analyse Long Context Reasoning (AA-LCR), en ny målestokk for å evaluere ytelse i lang kontekst gjennom testing av resonneringsevner på tvers av flere lange dokumenter (~100k tokens) Fokuset til AA-LCR er å replikere reelt kunnskapsarbeid og resonneringsoppgaver, teste kapasitet som er kritisk for moderne AI-applikasjoner som spenner over dokumentanalyse, kodebaseforståelse og komplekse flertrinns arbeidsflyter. AA-LCR er 100 vanskelige tekstbaserte spørsmål som krever resonnement på tvers av flere virkelige dokumenter som representerer ~100k inndatatokens. Spørsmål er utformet slik at svar ikke kan bli funnet direkte, men må resonneres fra flere informasjonskilder, med menneskelig testing som bekrefter at hvert spørsmål krever ekte slutning i stedet for gjenfinning. Viktige takeaways: ➤ Dagens ledende modeller oppnår ~70 % nøyaktighet: de tre øverste plassene går til OpenAI o3 (69 %), xAI Grok 4 (68 %) og Qwen3 235B 2507 Thinking (67 %) ➤ 👀 Vi har også allerede gpt-oss-resultater! 120B yter nær o4-mini (høy), i tråd med OpenAI-påstander angående modellytelse. Vi vil snart følge opp med en Intelligence Index for modellene. ➤ 100 vanskelige tekstbaserte spørsmål som spenner over 7 kategorier av dokumenter (selskapsrapporter, bransjerapporter, myndighetskonsultasjoner, akademia, juridisk, markedsføringsmateriell og undersøkelsesrapporter) ➤ ~100K tokens med input per spørsmål, noe som krever at modellene støtter et minimum 128K kontekstvindu for å score på denne referansen ➤ ~3M totalt unike inngangstokener som strekker seg over ~230 dokumenter for å kjøre referansen (utgangstokener varierer vanligvis etter modell) ➤ Lenke til datasett på 🤗 @HuggingFace er nedenfor Vi legger til AA-LCR i Artificial Analysis Intelligence Index, og tar versjonsnummeret til v2.2. Artificial Analysis Intelligence Index v2.2 inkluderer nå: MMLU-Pro, GPQA Diamond, AIME 2025, IFBench, LiveCodeBench, SciCode og AA-LCR. Alle tall er oppdatert på siden nå. Finn ut hvilke modeller Artificial Analysis Intelligence Index v2.2 👇
28,39K