熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
1/ 🔥 AI 代理正在達到網路安全的突破性時刻。
在我們最新的工作中:
🔓 CyberGym:AI 代理在主要開源專案中發現了 15 個零日漏洞
💰 BountyBench:AI 代理解決了價值數萬美元的真實漏洞賞金任務
🤖 自主。
一個關鍵的轉變正在發生 — AI 代理現在可以自主完成以前只有精英人類駭客才能完成的事情。

2/ 📡 為了跟蹤這一不斷加速的前沿領域,我們推出了Frontier AI網路安全觀察站——一個開放平臺,用於監控進攻和防禦安全任務中的 AI 能力。
我們邀請 AI 和安全社區合作並做出貢獻。
因為被測量的東西會得到保護。

3/ 🏋️ ♀️ CyberGym 是一個大規模評估框架,它對 AI 代理在 188 個主要開源軟體專案中的 1,500+ 個真實漏洞進行壓力測試。
它要求代理:
– 流覽大型真實代碼庫
– 為真實 CVE 重現 PoC
– 發現新的未知漏洞

4/ CyberGym 的主要見解:
⚙️ SOTA 代理和 LLM 成功為高達 ~18% 的歷史 CVE 生成了 PoC
🚨 更引人注目的是:他們在野外發現了 15 個零日漏洞

5/ 🐞 BountyBench 評估 AI 代理的 25 個真實複雜系統和 40 個漏洞賞金(價值高達 30,000 美元+),涵蓋 9 個 OWASP 前 10 個類別。

6/ 💡 來自 BountyBench 的主要見解:
– AI 代理解決了價值數萬美元的錯誤賞金任務
– Codex CLI和Claude Code在修補方面表現出色(90% / 87.5%),相比之下,在利用方面,表現優異,而已,在漏洞利用方面,表現優異,
– 自定義代理在兩者中的表現更均勻:漏洞利用 (40-67.5%)、補丁 (45-60%)

7/ 網路攻擊的自動化已經開始。
我們需要對這些能力進行透明、嚴格的評估 — 以免它們超過我們的回應能力。
這僅僅是個開始。
網站:
紙:
#AI #CyberSecurity #BugBounty #LLM #BountyBench #CyberGym
8/ 📋 我們正在收集人工智慧和網路安全研究人員和從業者的見解,瞭解前沿人工智慧將如何重塑網路安全格局。
您的觀點將有助於為研究和政策提供資訊。
加入對話 👉
9/ 🙏 非常感謝合作者:
Cybergym:@zhun_amg、@tiannengshi、@jingxuan_he、@Nightxade_ @benzhang04
Bountybench:@andystruct Daniel Ho @danboneh @percyliang 和許多學生,包括
@JoeyJi0927、@cel_menders、@DulepetRiya、@ThomasQin52342、@ronyifengwang、@laurawjr、@kyleenliao、@jAlinaHu、@enscry、@NishkaK253710、@_Eth007、@laurenmclane_、@oliviabruvik、@SeKim1112、@RyanLi0802、@SparklySid、@vikramsiva29。
Frontier AI 網路安全觀察站和“Frontier AI 對網路安全形勢的影響”的合著者:@yujink_ @WenboGuo4 @tiannengshi @zhun_amg @andystruct
我們也衷心感謝所有對我們的工作提供反饋的人。
50.24K
熱門
排行
收藏