Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
📢 Können LLMs wirklich außerhalb der gewohnten Denkweise in der Mathematik argumentieren? Oder remixen sie nur vertraute Strategien?
Denkt an DeepSeek R1, o1 hat uns bei Mathematik auf Olympiade-Niveau beeindruckt, aber sie haben auch bei einfacher Arithmetik versagt 😬
Wir haben einen Benchmark entwickelt, um das herauszufinden → OMEGA Ω 📐
💥 Wir haben festgestellt, dass RL, obwohl sehr leistungsfähig, Schwierigkeiten hat, Fähigkeiten zu kombinieren und neue Strategien zu innovieren, die während des Trainings nicht gesehen wurden. 👇
Arbeiten mit @UCBerkeley @allen_ai
Ein Thread über das, was wir gelernt haben 🧵

🤯 Wir haben festgestellt, dass viele Misserfolge nicht aus mangelndem Wissen, sondern aus Überdenken resultieren. Modelle finden oft früh im CoT die richtige Antwort, geraten jedoch in Selbstkorrekturen und geben korrekte Lösungen auf. Das stellt die Annahme in Frage:
Mehr CoT ≠ bessere Ergebnisse
Manchmal können die Selbstkorrekturmechanismen der Modelle unbeabsichtigt nach hinten losgehen.

🔁 Kann RL effektiv von einfachen zu schwierigen Problemen verallgemeinern? Wir finden starke frühe Fortschritte, aber die Verallgemeinerung stagniert mit der Komplexität der Aufgaben.
Das Training auf den Stufen 1–4 gibt einen soliden Schub bei in-domain Problemen, z.B. auf Stufe 1 (📈 0.45 → 0.80 nach RL).
ABER wenn wir die Schwierigkeit erhöhen
📉 sinkt die Leistung bei derselben Problemfamilie.
⚠️ Es gibt Grenzen dafür, wie weit erlernte Strategien gedehnt werden können.

🧠 Transformative Verallgemeinerung?
Immer noch unerreichbar. Wenn der Erfolg davon abhängt, eine neue Lösungsstrategie zu erfinden (z. B. clevere Symmetrie anstelle von brutaler Gewalt), scheitern Modelle konsequent, selbst nach RL.
RL kann die Leistung bei Aufgaben, die vertrauten Mustern folgen, die während des Trainings beobachtet wurden, erheblich verbessern, hat jedoch Schwierigkeiten, wenn der Erfolg von kreativer Einsicht oder Denkstrategien abhängt, die nicht explizit in den Daten demonstriert werden.

170,18K
Top
Ranking
Favoriten