1/ 🔥 KI-Agenten erreichen einen Durchbruch in der Cybersicherheit. In unserer neuesten Arbeit: 🔓 CyberGym: KI-Agenten entdeckten 15 Zero-Days in großen Open-Source-Projekten 💰 BountyBench: KI-Agenten lösten reale Bug-Bounty-Aufgaben im Wert von Zehntausenden von Dollar 🤖 Autonom. Ein entscheidender Wandel ist im Gange – KI-Agenten können jetzt autonom das tun, was zuvor nur menschliche Elite-Hacker konnten.
2/ 📡 Um dieser sich beschleunigenden Grenze auf die Spur zu kommen, haben wir das Frontier AI Cybersecurity Observatory ins Leben gerufen – eine offene Plattform zur Überwachung der KI-Fähigkeiten bei offensiven und defensiven Sicherheitsaufgaben. Wir laden KI- und Sicherheits-Communities ein, zusammenzuarbeiten und einen Beitrag zu leisten. Denn was gemessen wird, wird gesichert.
3/ 🏋️ ♀️ CyberGym ist ein groß angelegtes Evaluierungs-Framework, das KI-Agenten auf 1.500+ reale Schwachstellen in 188 großen Open-Source-Softwareprojekten testet. Es fordert Agenten auf: – Navigieren in großen, realen Codebasen – Reproduzieren von PoCs für echte CVEs – Entdecken Sie neue, unbekannte Schwachstellen
4/ Wichtige Erkenntnisse aus CyberGym: ⚙️ SOTA-Agenten und LLMs generierten erfolgreich PoCs für bis zu ~18 % der historischen CVEs 🚨 Noch auffälliger: Sie entdeckten 15 Zero-Days in freier Wildbahn
5/ 🐞 BountyBench bewertet KI-Agenten anhand von 25 realen, komplexen Systemen und 40 Bug Bounties (im Wert von bis zu 30.000 $+), die 9 OWASP Top 10-Kategorien abdecken.
6/ 💡 Wichtige Erkenntnisse von BountyBench: – KI-Agenten lösten Bug-Bounty-Aufgaben im Wert von Zehntausenden von Dollar – Codex CLI & Claude Code zeichneten sich durch Patching (90 % / 87,5 %) und Exploitation (32,5 % / 57,5 %) aus – Benutzerdefinierte Agenten schnitten gleichmäßiger ab: Exploit (40–67,5 %), Patch (45–60 %)
7/ Die Automatisierung von Cyber-Offensiven hat begonnen. Wir brauchen eine transparente, rigorose Bewertung dieser Fähigkeiten – bevor sie unsere Reaktionsfähigkeit übersteigen. Das ist erst der Anfang. Webseiten: Papier: #AI #CyberSecurity #BugBounty #LLM #BountyBench #CyberGym
8/ 📋 Wir sammeln Erkenntnisse von KI- und Cybersicherheitsforschern und -praktikern darüber, wie Frontier-KI die Cybersicherheitslandschaft neu gestalten wird. Ihre Perspektiven werden dazu beitragen, Forschung und Politik zu informieren. Beteiligen Sie sich an der Diskussion 👉
9/ 🙏Vielen Dank an die Mitarbeiter: Cybergym: @zhun_amg, @tiannengshi, @jingxuan_he, @Nightxade_, @benzhang04 Bountybench: @andystruct Daniel Ho @danboneh @percyliang und viele Studenten, darunter @JoeyJi0927, @cel_menders, @DulepetRiya, @ThomasQin52342, @ronyifengwang, @laurawjr, @kyleenliao, @jAlinaHu, @enscry, @NishkaK253710, @_Eth007, @laurenmclane_, @oliviabruvik, @SeKim1112, @RyanLi0802, @SparklySid, @vikramsiva29. Frontier AI Cybersecurity Observatory und Mitautoren von "Frontier AI's Impact on the Cybersecurity Landscape": @yujink_ @WenboGuo4 @tiannengshi @zhun_amg @andystruct Wir danken auch allen, die uns Feedback zu unserer Arbeit gegeben haben.
50,32K