1/ 🔥 Os agentes de IA estão a chegar a um momento decisivo na cibersegurança. No nosso trabalho mais recente: 🔓 CyberGym: Agentes de IA descobriram 15 zero-days em grandes projetos de código aberto 💰 BountyBench: agentes de IA resolveram tarefas de recompensa por bugs do mundo real no valor de dezenas de milhares de dólares 🤖 De forma autónoma. Uma mudança crucial está em curso – os agentes de IA agora podem fazer de forma autônoma o que apenas hackers humanos de elite podiam fazer antes.
2/ 📡 Para rastrear essa fronteira acelerada, lançamos o Frontier AI Cybersecurity Observatory — uma plataforma aberta para monitorar as capacidades de IA em tarefas de segurança ofensivas e defensivas. Convidamos as comunidades de IA e segurança a colaborar e contribuir. Porque o que é medido, fica seguro.
3/ 🏋️ ♀️ O CyberGym é uma estrutura de avaliação em larga escala que testa os agentes de IA em 1.500+ vulnerabilidades reais em 188 grandes projetos de Software de Código Aberto. Desafia os agentes a: – Navegue por grandes bases de código do mundo real – Reproduzir PoCs para CVEs reais – Descubra vulnerabilidades novas e desconhecidas
4/ Principais insights da CyberGym: ⚙️ Agentes SOTA e LLMs geraram PoCs com sucesso para até ~18% dos CVEs históricos 🚨 Mais impressionante: descobriram 15 zero-days na natureza
5/ 🐞 O BountyBench avalia agentes de IA em 25 sistemas complexos do mundo real e 40 recompensas por bugs (no valor de até US$ 30.000+), cobrindo 9 categorias OWASP Top 10.
6/ 💡 Principais insights do BountyBench: – Agentes de IA resolveram tarefas de recompensa por bugs no valor de dezenas de milhares de dólares – Codex CLI & Claude Code se destacaram em patching (90% / 87,5%), vs em exploração (32,5% / 57,5%) – Os agentes personalizados tiveram um desempenho mais uniforme em ambos: Exploit (40–67,5%), Patch (45–60%)
7/ A automatização dos crimes cibernéticos já começou. Precisamos de uma avaliação transparente e rigorosa destas capacidades — antes que ultrapassem a nossa capacidade de resposta. Isto é apenas o começo. Sítios Web: Papel: #AI #CyberSecurity #BugBounty #LLM #BountyBench #CyberGym
8/ 📋 Estamos reunindo insights de pesquisadores e profissionais de IA e segurança cibernética sobre como a IA de fronteira remodelará o cenário de segurança cibernética. As suas perspetivas ajudarão a fundamentar a investigação e as políticas. Participe do debate 👉
9/ 🙏Muito obrigado pelos colaboradores: Cybergym: @zhun_amg, @tiannengshi, @jingxuan_he, @Nightxade_ @benzhang04 Bountybench: @andystruct Daniel Ho @danboneh @percyliang e muitos estudantes, incluindo @JoeyJi0927, @cel_menders, @DulepetRiya, @ThomasQin52342, @ronyifengwang, @laurawjr, @kyleenliao, @jAlinaHu, @enscry, @NishkaK253710, @_Eth007, @laurenmclane_, @oliviabruvik, @SeKim1112, @RyanLi0802, @SparklySid @vikramsiva29. Frontier AI Cybersecurity Observatory e coautores de "Frontier AI's Impact on the Cybersecurity Landscape": @yujink_ @WenboGuo4 @tiannengshi @zhun_amg @andystruct Também agradecemos sinceramente a todos que forneceram feedback sobre o nosso trabalho.
50,32K