標籤

jailbreak

3 篇文章

Anthropic 停權把發布變政策

產業動態/6月16日

Anthropic 停權把發布變政策

我拆 Anthropic 停止公開工具的事件，整理出 AI 發布何時會變成政策問題，以及你該先寫好的發布風險模板。

AVISE 模組化測 AI 安全漏洞

技術研究/4月23日

AVISE 模組化測 AI 安全漏洞

AVISE 是一個開源 AI 安全評估框架，主打模組化漏洞測試。論文用 25 個 jailbreak 測試案例與自動判定流程，驗證 9 個模型都能被攻破。

LLM 的有害行為藏在哪裡

技術研究/4月13日

LLM 的有害行為藏在哪裡

這篇研究用權重剪枝發現，有害輸出可能集中在一小組共享權重裡，且和正常能力分開。這能解釋為什麼 jailbreak 很脆弱，也為什麼窄域微調會引發更廣泛的失配。