標籤

language models

語言模型是生成式 AI 的核心，涵蓋預訓練、詞彙擴充、對齊與安全評估等議題。這裡會整理模型如何學習語意、處理新 token，以及在 jailbreak 與漏洞測試中暴露的風險。

5 篇文章

語言模型有一條「價值軸」

技術研究/6月16日

語言模型有一條「價值軸」

這篇論文指出，Qwen3-8B 內部會估計自己目前路徑成功的機率，且可被線性軸辨識並操控。

Persona-Pruner：把大模型修成角色專用小腦袋

技術研究/6月15日

Persona-Pruner：把大模型修成角色專用小腦袋

Persona-Pruner 把語言模型剪成角色專用的輕量版本，盡量保住扮演能力，同時維持一般語言能力。

次詞模型其實會先想一步

技術研究/6月5日

次詞模型其實會先想一步

這篇論文主張，自回歸語言模型雖只訓練預測下一個 token，仍可能展現看前一步的規劃行為。

LLM 學到文法了嗎？

技術研究/5月7日

LLM 學到文法了嗎？

這篇研究用線性 probe 讀取語言模型隱藏層，發現模型對「文法正確性」有獨立於字串機率的訊號，但在語意合理性上仍不如 likelihood。

AVISE 模組化測 AI 安全漏洞

技術研究/4月23日

AVISE 模組化測 AI 安全漏洞

AVISE 是一個開源 AI 安全評估框架，主打模組化漏洞測試。論文用 25 個 jailbreak 測試案例與自動判定流程，驗證 9 個模型都能被攻破。