Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Min grupp och mina samarbetspartners har utvecklat många populära benchmarks genom åren, t.ex. MMLU, MATH, APPS--- verkligen exalterade över vårt senaste riktmärke OMEGA Ω:
🔍Kan LLM:er verkligen tänka utanför boxen i matematik?
Ett nytt riktmärke som undersöker 3 generaliseringsaxlar:
1️⃣ Utforskande
2️⃣ Sammansättning
3️⃣ Transformativ
visa på begränsningar i dagens frontier AI och RL-träning i dessa dimensioner av generalisering.
Inspirerad av Bodens typologi av kreativitet går OMEGA vidare än tidigare riktmärken med en programmatiskt genererad datauppsättning som kombinerar exakt kontroll med rik mångfald. Den spänner över ett brett spektrum av matematiska domäner och är uttryckligen utformad för att utvärdera distinkta axlar av generalisering och kreativt resonemang.
Genom att isolera och kvantifiera finkorniga fellägen ger OMEGA en grund för att utveckla LLM:er mot genuin matematisk kreativitet - bortom mekanisk skicklighet.
Stort tack till min postdoktor @YiyouSun @UCBerkeley som ledde projektet, och fantastiska samarbetspartners @nouhadziri @HannaHajishirzi @allen_ai och andra medförfattare!
Topp
Rankning
Favoriter