1/ 🔥 AI 代理正在達到網路安全的突破性時刻。 在我們最新的工作中: 🔓 CyberGym:AI 代理在主要開源專案中發現了 15 個零日漏洞 💰 BountyBench:AI 代理解決了價值數萬美元的真實漏洞賞金任務 🤖 自主。 一個關鍵的轉變正在發生 — AI 代理現在可以自主完成以前只有精英人類駭客才能完成的事情。
2/ 📡 為了跟蹤這一不斷加速的前沿領域,我們推出了Frontier AI網路安全觀察站——一個開放平臺,用於監控進攻和防禦安全任務中的 AI 能力。 我們邀請 AI 和安全社區合作並做出貢獻。 因為被測量的東西會得到保護。
3/ 🏋️ ♀️ CyberGym 是一個大規模評估框架,它對 AI 代理在 188 個主要開源軟體專案中的 1,500+ 個真實漏洞進行壓力測試。 它要求代理: – 流覽大型真實代碼庫 – 為真實 CVE 重現 PoC – 發現新的未知漏洞
4/ CyberGym 的主要見解: ⚙️ SOTA 代理和 LLM 成功為高達 ~18% 的歷史 CVE 生成了 PoC 🚨 更引人注目的是:他們在野外發現了 15 個零日漏洞
5/ 🐞 BountyBench 評估 AI 代理的 25 個真實複雜系統和 40 個漏洞賞金(價值高達 30,000 美元+),涵蓋 9 個 OWASP 前 10 個類別。
6/ 💡 來自 BountyBench 的主要見解: – AI 代理解決了價值數萬美元的錯誤賞金任務 – Codex CLI和Claude Code在修補方面表現出色(90% / 87.5%),相比之下,在利用方面,表現優異,而已,在漏洞利用方面,表現優異, – 自定義代理在兩者中的表現更均勻:漏洞利用 (40-67.5%)、補丁 (45-60%)
7/ 網路攻擊的自動化已經開始。 我們需要對這些能力進行透明、嚴格的評估 — 以免它們超過我們的回應能力。 這僅僅是個開始。 網站: 紙: #AI #CyberSecurity #BugBounty #LLM #BountyBench #CyberGym
8/ 📋 我們正在收集人工智慧和網路安全研究人員和從業者的見解,瞭解前沿人工智慧將如何重塑網路安全格局。 您的觀點將有助於為研究和政策提供資訊。 加入對話 👉
9/ 🙏 非常感謝合作者: Cybergym:@zhun_amg、@tiannengshi、@jingxuan_he、@Nightxade_ @benzhang04 Bountybench:@andystruct Daniel Ho @danboneh @percyliang 和許多學生,包括 @JoeyJi0927、@cel_menders、@DulepetRiya、@ThomasQin52342、@ronyifengwang、@laurawjr、@kyleenliao、@jAlinaHu、@enscry、@NishkaK253710、@_Eth007、@laurenmclane_、@oliviabruvik、@SeKim1112、@RyanLi0802、@SparklySid、@vikramsiva29。 Frontier AI 網路安全觀察站和“Frontier AI 對網路安全形勢的影響”的合著者:@yujink_ @WenboGuo4 @tiannengshi @zhun_amg @andystruct 我們也衷心感謝所有對我們的工作提供反饋的人。
50.24K