Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Il mio gruppo e i miei collaboratori hanno sviluppato molti benchmark popolari nel corso degli anni, ad esempio MMLU, MATH, APPS--- sono davvero entusiasta del nostro ultimo benchmark OMEGA Ω:
🔍Gli LLM possono davvero pensare fuori dagli schemi in matematica?
Un nuovo benchmark che sonda 3 assi di generalizzazione:
1️⃣ Esplorativo
2️⃣ Compositivo
3️⃣ Trasformativo
mostrando i limiti dell'odierna formazione di frontiera dell'IA e della RL in queste dimensioni di generalizzazione.
Ispirata dalla tipologia di creatività di Boden, OMEGA va oltre i precedenti benchmark con un set di dati generato in modo programmatico che combina un controllo preciso con una ricca diversità. Abbracciando un'ampia gamma di domini matematici, è esplicitamente progettato per valutare assi distinti di generalizzazione e ragionamento creativo.
Isolando e quantificando le modalità di guasto a grana fine, OMEGA fornisce una base per far progredire gli LLM verso un'autentica creatività matematica, che va oltre la competenza meccanica.
Un enorme ringraziamento al mio postdoc @YiyouSun @UCBerkeley aver guidato il progetto, e ai fantastici collaboratori @nouhadziri @HannaHajishirzi @allen_ai e ad altri co-autori!
Principali
Ranking
Preferiti