產業動態/6月16日
Anthropic 停權把發布變政策
我拆 Anthropic 停止公開工具的事件,整理出 AI 發布何時會變成政策問題,以及你該先寫好的發布風險模板。
技術研究/4月23日
AVISE 模組化測 AI 安全漏洞
AVISE 是一個開源 AI 安全評估框架,主打模組化漏洞測試。論文用 25 個 jailbreak 測試案例與自動判定流程,驗證 9 個模型都能被攻破。
技術研究/4月13日
LLM 的有害行為藏在哪裡
這篇研究用權重剪枝發現,有害輸出可能集中在一小組共享權重裡,且和正常能力分開。這能解釋為什麼 jailbreak 很脆弱,也為什麼窄域微調會引發更廣泛的失配。