標籤
language models
語言模型是生成式 AI 的核心,涵蓋預訓練、詞彙擴充、對齊與安全評估等議題。這裡會整理模型如何學習語意、處理新 token,以及在 jailbreak 與漏洞測試中暴露的風險。
5 篇文章

技術研究/6月16日
語言模型有一條「價值軸」
這篇論文指出,Qwen3-8B 內部會估計自己目前路徑成功的機率,且可被線性軸辨識並操控。

技術研究/6月15日
Persona-Pruner:把大模型修成角色專用小腦袋
Persona-Pruner 把語言模型剪成角色專用的輕量版本,盡量保住扮演能力,同時維持一般語言能力。

技術研究/6月5日
次詞模型其實會先想一步
這篇論文主張,自回歸語言模型雖只訓練預測下一個 token,仍可能展現看前一步的規劃行為。

技術研究/5月7日
LLM 學到文法了嗎?
這篇研究用線性 probe 讀取語言模型隱藏層,發現模型對「文法正確性」有獨立於字串機率的訊號,但在語意合理性上仍不如 likelihood。

技術研究/4月23日
AVISE 模組化測 AI 安全漏洞
AVISE 是一個開源 AI 安全評估框架,主打模組化漏洞測試。論文用 25 個 jailbreak 測試案例與自動判定流程,驗證 9 個模型都能被攻破。