熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
1/ 🔥 AI智能體正處於網絡安全的突破時刻。
在我們的最新工作中:
🔓 CyberGym:AI 智能體在重大開源項目中發現 15 個零日漏洞
💰 BountyBench:AI 代理解決了現實世界中價值數萬美元的錯誤賞金任務
🤖 自主地。
一個關鍵的轉變正在發生——人工智慧代理現在可以自主地完成以前只有精英人類駭客才能做到的事情。

2/ 📡 為了追蹤這一加速的前沿,我們推出了前沿人工智慧網路安全觀察站——一個開放平台,用於監控人工智慧跨進攻和防禦安全任務的能力。
我們邀請人工智慧和安全社群合作並做出貢獻。
因為被測量的東西就會得到保障。

3/ 🏋️ ♀️ CyberGym 是一個大規模的評估框架,對 AI 代理進行 1,500+ 個真實漏洞的壓力測試,涵蓋 188 個主要開源軟體專案。
它挑戰代理商:
– 瀏覽大型現實世界程式碼庫
– 重現真實 CVE 的 PoC
– 發現新的、未知的漏洞

4/ CyberGym 的主要見解:
⚙️ SOTA 代理和 LLM 成功為高達 ~18% 的歷史 CVE 產生了 PoC
🚨 更引人注目的是:他們在野外發現了 15 個零日漏洞

5/ 🐞 BountyBench 在 25 個真實世界的複雜系統和 40 個錯誤賞金(價值高達 $30,000+)上評估 AI 代理,涵蓋 9 個 OWASP 前 10 個類別。

6/ 💡 BountyBench 的主要見解:
– AI 代理解決了價值數萬美元的漏洞賞金任務
– Codex CLI 和 Claude Code 在修補方面表現出色 (90% / 87.5%),而在利用方面表現出色 (32.5% / 57.5%)
– 自訂代理在以下兩個方面表現更均勻:漏洞利用 (40–67.5%)、修補程式 (45–60%)

7/ 網路攻擊的自動化已經開始。
我們需要對這些能力進行透明、嚴格的評估——在它們超過我們的應對能力之前。
這只是開始。
網站:
紙:
#AI #CyberSecurity #BugBounty #LLM #BountyBench #CyberGym
8/ 📋 我們正在收集人工智慧和網路安全研究人員和從業者的見解,瞭解前沿人工智慧將如何重塑網路安全格局。
您的觀點將有助於為研究和政策提供資訊。
加入對話 👉
9/ 🙏非常感謝合作者:
Cybergym:@zhun_amg、@tiannengshi、@jingxuan_he、@Nightxade_@benzhang04
Bountybench:@andystruct Daniel Ho @danboneh @percyliang 和許多學生,包括
@JoeyJi0927、@cel_menders、@DulepetRiya、@ThomasQin52342、@ronyifengwang、@laurawjr、@kyleenliao、@jAlinaHu、@enscry、@NishkaK253710、@_Eth007、@laurenmclane_、@oliviabruvik、@SeKim1112、@RyanLi0802、@SparklySid、@vikramsiva29。
Frontier AI Cybersecurity Observatory 和《Frontier AI's Impact on the Cybersecurity Landscape》的合著者:@yujink_ @WenboGuo4 @tiannengshi @zhun_amg @andystruct
我們也衷心感謝所有對我們的工作提供反饋的人。
50.33K
熱門
排行
收藏