📣 Variation in Verification: Verständnis der Verifizierungsdynamik in großen Sprachmodellen 📄 Papier: 🔗 Projekt: Haben Sie sich jemals gefragt, ob Ihr LLM-Verifizierer tatsächlich zuverlässig für Ihre Aufgabe ist? Unser Analyse-Framework zeigt drei Schlüsselfaktoren, die den Verifizierungserfolg über die Problemschwierigkeit, die Fähigkeit des Generators und die Fähigkeit des Verifizierers bestimmen. Wichtige Erkenntnisse: 📈 Die Problematik treibt die Erkennung korrekter Antworten - Verifizierer sind bei einfachen Problemen hervorragend, haben aber Schwierigkeiten mit schwierigen. 🔍 Die Stärke des Generators beeinflusst die Fehlererkennung - schwache Generatoren produzieren offensichtliche Fehler, starke schaffen elegante, aber falsche Lösungen. ⚖️ Die Skalierung des Verifizierers zeigt abnehmende Erträge in bestimmten Regimen - manchmal schlägt GPT-4o gerade so kleinere Modelle. 💡 Für die Testzeit-Skalierung: schwache Generatoren + Verifizierung können die Leistung starker Generatoren erreichen, und teure Verifizierer sind nicht immer lohnenswert. Großartige Arbeit von Yefan Zhou @LiamZhou98, Austin Xu @austinsxu, Yilun Zhou @YilunZhou, Janvijay Singh @iamjanvijay, Jiang Gui @JiangGui, Shafiq Joty @JotyShafiq! #LLM #AIVerification #TestTimeScaling #FutureOfAI #EnterpriseAI