[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-llms-implicit-grammar-representations-zh":3,"article-related-llms-implicit-grammar-representations-zh":29,"series-research-f07807ac-d51e-413e-a08a-42b6045d1e90":74},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":11},"f07807ac-d51e-413e-a08a-42b6045d1e90","llms-implicit-grammar-representations-zh","LLM 學到文法了嗎？","\u003Cp data-speakable=\"summary\">這篇研究在看語言模型的隱藏層，發現它們能讀出比字串機率更接近文法正確性的訊號。\u003C\u002Fp>\u003Cp>對很多開發者來說，語言模型給一個句子的分數高，常常就被當成「這句話比較像人話」的證據。但這篇論文要拆開兩件事：模型是不是只是在算字串機率，還是真的在內部學到了某種文法正確性訊號。\u003C\u002Fp>\u003Cp>作者的答案是：有，但不是全部。從隱藏層抽出的線性 probe，確實能抓到一個和文法性相關的表示，而且這個表示不只在訓練情境有效，還能延伸到人類標註的文法判斷資料，以及其他語言。不過，這個訊號不是萬用解。當任務變成「語意是否合理」時，單看字串機率反而比較強。\u003C\u002Fp>\u003Ch2>這篇在解什麼痛點\u003C\u002Fh2>\u003Cp>語言模型很會產生流暢文字，但「流暢」不等於「文法正確」，「機率高」也不等於「句子合語法」。這是研究一開始就點出的問題。對人類來說，文法性和可接受度本來就不是同一件事；對模型來說，輸出分數更可能混了很多因素，包括字詞常見度、語意搭配、上下文關聯等等。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778135468005-hzub.png\" alt=\"LLM 學到文法了嗎？\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這會讓實務上常見的一個捷徑變得不可靠：把模型的 li\u003Ca href=\"\u002Fnews\u002Foutlier-tokens-diffusion-transformers-dsr-zh\">ke\u003C\u002Fa>lihood 當作文法分數。若你想拿 \u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> 做文字過濾、句子評分、或是建立評測工具，就會碰到一個核心問題：模型到底有沒有真的學到文法，還是只是機率分佈剛好在某些案例上看起來像懂文法。\u003C\u002Fp>\u003Cp>這篇論文想分辨的，就是這兩種可能性。它不是只看輸出分數，而是直接往模型內部看，檢查 hidden states 裡有沒有更直接的文法表示。\u003C\u002Fp>\u003Ch2>方法怎麼做\u003C\u002Fh2>\u003Cp>作者用的是一個很典型、也很務實的做法：線性 probe。簡單講，probe 就是一個輕量分類器，專門用來從模型的隱藏表示裡讀出某種資訊。這裡要讀出的資訊，就是文法正確性。\u003C\u002Fp>\u003Cp>訓練資料來自自然語料，再透過 perturbation 產生合成的非文法句子。這樣就能得到一批成對的樣本：一邊是原本的文法句子，一邊是被改壞的版本。這種做法的好處很直接，不需要全部靠人工從頭標註，就能建立出可訓練 probe 的資料。\u003C\u002Fp>\u003Cp>probe 的任務，是根據語言模型內部 activations，判斷這個句子是文法還是非文法。若一個簡單的線性模型就能把這個差異讀出來，通常代表該資訊已經以相當可用的形式存在於 hidden layers 裡。\u003C\u002Fp>\u003Cp>接著，作者再把這個 probe 拿去測試其他情境，包括人類整理的 grammaticality judgment benchmarks，以及不同語言。這一步很重要，因為它不是只看在訓練資料上能不能分，而是看這個訊號能不能泛化。\u003C\u002Fp>\u003Cp>也要先講清楚，這篇不是在宣稱模型真的「理解」文法，更不是在提出一套完整語法理論。它的主張比較窄：模型內部似乎有一個和文法性相關、而且不完全等同於字串機率的表示。\u003C\u002Fp>\u003Ch2>論文證明了什麼\u003C\u002Fh2>\u003Cp>最重要的結果，是這個 grammaticality probe 在人類標註的文法判斷基準上能泛化，而且比單純用語言模型的機率分數來判斷文法更好。換句話說，如果你的目標是分辨一句話是不是合語法，讀 hidden states 的 probe 會比直接看 likelihood 更有用。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778135462793-y7hp.png\" alt=\"LLM 學到文法了嗎？\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>但論文也刻意指出一個界線。當任務換成 sema\u003Ca href=\"\u002Fnews\u002Fhow-to-build-agentic-rag-with-langgraph-zh\">ntic\u003C\u002Fa> plausibility，也就是兩句都合語法，但其中一句比較合理、比較符合常識時，probe 的表現反而不如字串機率。這代表 probe 不是一個泛用的「好句子分數器」。它更像是在抓形式或句法層面的訊號，而 likelihood 仍然保留了更多和語意合理性有關的資訊。\u003C\u002Fp>\u003Cp>這個對比很關鍵。因為它說明 probe 不是單純學到一個「越像人寫的越高分」的抽象分數，而是比較接近文法正確性本身。換句話說，模型內部的確存在某種和 syntax 或 form 有關的表示，只是這個表示並不能取代所有與語言品質相關的判斷。\u003C\u002Fp>\u003Cp>論文也提到跨語言泛化。用英文訓練的 probe，對多種其他語言的文法基準，也比字串機率表現更好。這對多語系應用很有意思，因為它暗示這個訊號不完全被英文表面形式綁住。\u003C\u002Fp>\u003Cp>另外一個值得注意的點，是 probe 分數和字串機率之間只有弱相關。這是支持作者主張的關鍵證據之一：文法性和 likelihood 在模型內部並不是同一條軸線。模型似乎有學到一部分獨立的文法訊號，只是這個訊號並不完整，也不等於模型整體的生成偏好。\u003C\u002Fp>\u003Cp>不過，摘要沒有公開完整 benchmark 數字、資料集大小，或具體模型名稱，所以這些細節無法從原始摘要補出來。\u003C\u002Fp>\u003Ch2>對開發者有什麼影響\u003C\u002Fh2>\u003Cp>如果你在做 LLM 相關產品，這篇研究最直接的提醒是：不要把 likelihood 當成萬用代理指標。模型給出一個高分，可能反映的是很多東西的混合結果，不只是文法。這篇研究把這件事拆得更清楚：文法性和機率分數可以部分分離。\u003C\u002Fp>\u003Cp>這對幾種工作流程特別有影響：\u003C\u002Fp>\u003Cul>\u003Cli>文法檢查與文字過濾：你可能會想要更接近 well-formedness 的訊號，而不是泛用流暢度。\u003C\u002Fli>\u003Cli>評測設計：只看 likelihood 可能會把文法性和語意合理性混在一起。\u003C\u002Fli>\u003Cli>多語應用：英文上學到的訊號，可能比想像中更能跨語言使用。\u003C\u002Fli>\u003Cli>可解釋性分析：probe 可以幫你看模型 hidden states 內到底存了什麼資訊。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>但限制也很明顯。這篇沒有證明 probe 是完美的文法偵測器，只是它在測試情境裡比 probability-based judgments 更好。它在 plausibility 任務上又輸給 likelihood，所以不能把它直接當成所有場景的替代方案。\u003C\u002Fp>\u003Cp>還有一個實作上的保留：linear probe 只能告訴你某個資訊是否能從表示中被線性讀出，不能告訴你模型怎麼算出來，也不能保證不同架構、不同規模、不同訓練資料下都一樣穩。摘要裡也沒有說，這個結果對 perturbation 的設計有多敏感。\u003C\u002Fp>\u003Cp>所以，這篇論文比較像是把一個常見假設戳破一點：LLM 的輸出機率不等於文法分數，但 hidden layers 裡確實藏著一個更接近文法性的訊號。對要做文字評分、句子過濾、或多語評測的人來說，這代表你可能得開始看內部表示，而不是只盯著 raw likelihood。\u003C\u002Fp>\u003Ch2>結論\u003C\u002Fh2>\u003Cp>這篇研究的核心訊息很清楚：預訓練語言模型的 hidden layers 裡，存在一個可被線性 probe 讀出的文法性訊號。這個訊號在文法判斷任務上，比直接看字串機率更有效，也能跨語言泛化；但在語意合理性判斷上，likelihood 仍然更有用。\u003C\u002Fp>\u003Cp>換句話說，LLM 不是只會算機率。它們內部確實學到了一部分文法結構，只是這不代表你可以把所有語言品質問題都交給同一個分數處理。對開發者來說，這篇比較像是一個方法提醒：如果你在意的是文法，別只看輸出，去看模型裡面讀得到\u003Ca href=\"\u002Fnews\u002Fwhy-openai-microsoft-breakup-good-for-everyone-zh\">什麼\u003C\u002Fa>。\u003C\u002Fp>","這篇研究用線性 probe 讀取語言模型隱藏層，發現模型對「文法正確性」有獨立於字串機率的訊號，但在語意合理性上仍不如 likelihood。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.05197",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778135468005-hzub.png","research","zh","22c43f4e-8be9-4440-bd1b-74a00b60dfa3",[17,18,19,20,21],"language models","linear probe","grammaticality","likelihood","hidden representations",[23,24,25],"隱藏層能讀出比字串機率更接近文法正確性的訊號。","這個訊號在文法判斷上有效，但不適合拿來取代所有 likelihood 用途。","英文訓練的 probe 也能跨語言泛化，但摘要沒有公開完整 benchmark 數字。",3,"2026-05-07T06:30:33.906328+00:00","2026-05-07T06:30:33.667+00:00",{"tags":30,"relatedLang":33,"relatedPosts":37},[31],{"name":17,"slug":32},"language-models",{"id":15,"slug":34,"title":35,"language":36},"llms-implicit-grammar-representations-en","Do LLMs Learn Grammar Beyond Likelihood?","en",[38,44,50,56,62,68],{"id":39,"slug":40,"title":41,"cover_image":42,"image_url":42,"created_at":43,"category":13},"d6f25c66-98f5-4971-8d1d-487fb5fe1881","claude-sonnet-46-sre-benchmark-rootly-zh","Claude Sonnet 4.6 對上 SRE 工作更接近 Opus","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782750780131-xelc.png","2026-06-29T16:32:28.457338+00:00",{"id":45,"slug":46,"title":47,"cover_image":48,"image_url":48,"created_at":49,"category":13},"29321237-6e9a-4271-b9fb-e43e798d5dff","glm-52-beats-claude-semgrep-idor-test-zh","GLM 5.2 在 IDOR 測試贏過 Claude","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782749882713-7i5n.png","2026-06-29T16:17:31.911487+00:00",{"id":51,"slug":52,"title":53,"cover_image":54,"image_url":54,"created_at":55,"category":13},"5172bfc7-34c8-4477-a177-ffa615497ecf","opd-distillation-skills-without-bruteforce-rl-zh","OPD 讓你把技能蒸餾進模型","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782730101413-5wjx.png","2026-06-29T10:47:57.457072+00:00",{"id":57,"slug":58,"title":59,"cover_image":60,"image_url":60,"created_at":61,"category":13},"6f5be102-5764-44f1-ab3f-722fc5c32c23","google-deepmind-turns-science-into-tools-zh","Google DeepMind把AI變研究工具","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782721105628-g4op.png","2026-06-29T08:17:57.716568+00:00",{"id":63,"slug":64,"title":65,"cover_image":66,"image_url":66,"created_at":67,"category":13},"c649adb7-c8ae-4ade-a092-2c0d53beeb71","measuring-llm-behavior-portability-zh","LLM 行為不一定可移植","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782717472977-na8g.png","2026-06-29T07:17:29.597679+00:00",{"id":69,"slug":70,"title":71,"cover_image":72,"image_url":72,"created_at":73,"category":13},"637c3016-e364-4bfe-904e-5e60a18ed678","prompt-injection-ai-security-problem-zh","Prompt injection 已是 AI 資安問題","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782716580916-m1nm.png","2026-06-29T07:02:36.173749+00:00",[75,80,85,90,95,100,105,110,115,120],{"id":76,"slug":77,"title":78,"created_at":79},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":81,"slug":82,"title":83,"created_at":84},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":86,"slug":87,"title":88,"created_at":89},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":91,"slug":92,"title":93,"created_at":94},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":96,"slug":97,"title":98,"created_at":99},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":101,"slug":102,"title":103,"created_at":104},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":106,"slug":107,"title":108,"created_at":109},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":111,"slug":112,"title":113,"created_at":114},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":116,"slug":117,"title":118,"created_at":119},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":121,"slug":122,"title":123,"created_at":124},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]