Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Meine Gruppe und meine Mitarbeiter haben im Laufe der Jahre viele beliebte Benchmarks entwickelt, z.B. MMLU, MATH, APPS---ich bin wirklich begeistert von unserem neuesten Benchmark OMEGA Ω:
🔍Können LLMs in Mathematik wirklich über den Tellerrand hinausschauen?
Ein neuer Benchmark, der 3 Achsen der Verallgemeinerung untersucht:
1️⃣ Erkundung
2️⃣ Komposition
3️⃣ Transformativ
was die Grenzen der heutigen Grenz-KI und des RL-Trainings in diesen Dimensionen der Generalisierung aufzeigt.
Inspiriert von Bodens Typologie der Kreativität, übertrifft OMEGA frühere Maßstäbe mit einem programmatisch generierten Datensatz, der präzise Steuerung mit großer Vielfalt verbindet. Es deckt ein breites Spektrum mathematischer Bereiche ab und ist explizit darauf ausgelegt, unterschiedliche Achsen der Verallgemeinerung und des kreativen Denkens zu bewerten.
Durch die Isolierung und Quantifizierung feinkörniger Fehlermodi bietet OMEGA eine Grundlage für die Weiterentwicklung von LLMs hin zu echter mathematischer Kreativität – über die mechanische Kompetenz hinaus.
Ein großes Dankeschön an meine Postdoc-@YiyouSun @UCBerkeley die das Projekt geleitet haben, und an die großartigen Mitarbeiter @nouhadziri @HannaHajishirzi @allen_ai und anderen Co-Autoren!
Top
Ranking
Favoriten