Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Moje skupina a spolupracovníci v průběhu let vyvinuli mnoho populárních benchmarků, např. MMLU, MATH, APPS---jsme nadšeni z našeho nejnovějšího benchmarku OMEGA Ω:
🔍Mohou LLM skutečně myslet mimo rámec v matematice?
Nový benchmark zkoumající 3 osy zobecnění:
1️⃣ Průzkumné
2️⃣ Kompoziční
3️⃣ Transformační
což ukazuje omezení dnešní hraniční umělé inteligence a trénování RL v těchto dimenzích zobecnění.
Inspirována Bodenovou typologií kreativity, OMEGA překračuje předchozí benchmarky s programově generovanou datovou sadou, která kombinuje přesné ovládání s bohatou rozmanitostí. Pokrývá širokou škálu matematických domén a je výslovně navržen tak, aby hodnotil odlišné osy zobecnění a tvůrčího uvažování.
Izolací a kvantifikací jemně odstupňovaných způsobů selhání poskytuje OMEGA základ pro posun LLM směrem ke skutečné matematické kreativitě – za hranicemi mechanických znalostí.
Obrovské díky mému postdoktorandovi @YiyouSun @UCBerkeley vedení projektu a úžasným spolupracovníkům @nouhadziri @HannaHajishirzi @allen_ai a dalším spoluautorům!
Top
Hodnocení
Oblíbené