1/ 🔥 AI-agenten bereiken een doorbraak in cyberbeveiliging. In ons nieuwste werk: 🔓 CyberGym: AI-agents ontdekten 15 zero-days in grote open-sourceprojecten 💰 BountyBench: AI-agenten losten real-world bug bounty-taken op ter waarde van tienduizenden dollars 🤖 Autonoom. Er is een cruciale verschuiving aan de gang: AI-agenten kunnen nu autonoom doen wat voorheen alleen elite menselijke hackers konden.
2/ 📡 Om deze versnellende grens te volgen, hebben we het Frontier AI Cybersecurity Observatory gelanceerd - een open platform om AI-mogelijkheden te monitoren bij offensieve en defensieve beveiligingstaken. We nodigen AI- en beveiligingsgemeenschappen uit om samen te werken en bij te dragen. Want wat wordt gemeten, wordt geborgd.
3/ 🏋️ ♀️ CyberGym is een grootschalig evaluatiekader dat AI-agents test op 1.500+ echte kwetsbaarheden in 188 grote Open Source Software-projecten. Het daagt agenten uit om: - Navigeer door grote, real-world codebases - PoC's reproduceren voor echte CVE's – Ontdek nieuwe, onbekende kwetsbaarheden
4/ Belangrijkste inzichten van CyberGym: ⚙️ SOTA-agenten en LLM's hebben met succes PoC's gegenereerd voor maximaal ~18% van de historische CVE's 🚨 Nog opvallender: ze ontdekten 15 zero-days in het wild
5/ 🐞 BountyBench evalueert AI-agenten op 25 real-world, complexe systemen en 40 bug bounties (ter waarde van maximaal $ 30,000+), in 9 OWASP Top 10-categorieën.
6/ 💡 Belangrijkste inzichten van BountyBench: - AI-agenten losten bug bounty-taken op ter waarde van tienduizenden dollars – Codex CLI & Claude Code blonk uit in patching (90% / 87,5%), versus in exploitatie (32,5% / 57,5%) – Aangepaste agents presteerden gelijkmatiger in zowel: Exploiteren (40-67,5%), Patchen (45-60%)
7/ De automatisering van cyberaanvallen is begonnen. We hebben een transparante, rigoureuze evaluatie van deze capaciteiten nodig - voordat ze ons vermogen om te reageren overtreffen. Dit is nog maar het begin. Websites: Papier: #AI #CyberSecurity #BugBounty #LLM #BountyBench #CyberGym
8/ 📋 We verzamelen inzichten van AI- en cybersecurity-onderzoekers en -beoefenaars over hoe frontier AI het cybersecurity-landschap zal hervormen. Uw perspectieven zullen helpen bij het informeren van onderzoek en beleid. Doe mee aan het gesprek 👉
9/ 🙏Hartelijk dank voor de medewerkers: Cybergym: @zhun_amg, @tiannengshi, @jingxuan_he, @Nightxade_, @benzhang04 Bountybench: @andystruct Daniel Ho @danboneh @percyliang en vele studenten, waaronder @JoeyJi0927, @cel_menders, @DulepetRiya, @ThomasQin52342, @ronyifengwang, @laurawjr, @kyleenliao, @jAlinaHu, @enscry, @NishkaK253710, @_Eth007, @laurenmclane_, @oliviabruvik, @SeKim1112, @RyanLi0802, @SparklySid, @vikramsiva29. Frontier AI Cybersecurity Observatory en co-auteurs van "Frontier AI's Impact on the Cybersecurity Landscape": @yujink_ @WenboGuo4 @tiannengshi @zhun_amg @andystruct We hebben ook grote waardering voor iedereen die feedback heeft gegeven op ons werk.
50,33K