[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-language-models-value-axis-zh":3,"article-related-language-models-value-axis-zh":31,"series-research-cb7401ba-eb16-48ac-9d61-79c2688666f1":76},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":23,"views":27,"created_at":28,"published_at":29,"topic_cluster_id":30},"cb7401ba-eb16-48ac-9d61-79c2688666f1","language-models-value-axis-zh","語言模型有一條「價值軸」","\u003Cp data-speakable=\"summary\">這篇論文指出，Qwen3-8B 內部會估計自己目前路徑成功的機率，且可被線性軸辨識並操控。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：arXiv 摘要未明確標註\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：摘要無公開 benchmark 數字\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：從合成 RL 資料建價值軸\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這篇研究在講一件很實用的事：語言模型不一定只是「會不會答」，它可能還在內部判斷「我現在走的這條路，成功機率高不高」。如果這個判斷真的存在，很多看起來像自信、猶豫、回頭修正的行為，就不只是表面輸出，而是模型內部狀態的反映。\u003C\u002Fp>\u003Cp>對做模型分析、對齊、debug 的人來說，這很重要。因為它把原本很難抓的行為，拉回到一個比較可測的概念：模型是否有一條可被讀出的「價值」方向，代表它對當前軌跡的預期成功率。\u003C\u002Fp>\u003Ch2>這篇在解什麼痛點\u003C\u002Fh2>\u003Cp>大型語言模型常會表現出自信、遲疑、探索，甚至自己改答案。但這些行為到底是什麼意思，並不容易解釋。模型是真的在評估自己這條推理路線有沒有用，還是只是生成了看起來像評估的文字？這篇論文直接把問題收斂成一個更尖銳的版本：模型內部是否有一個隱含變數，在估計「目前這條路能不能達成目標」？\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781589777319-s2yz.png\" alt=\"語言模型有一條「價值軸」\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這不是純理論問題。因為只要模型真的有這種內部估計，它就可能影響很多後續行為。覺得路徑有希望，模型可能會繼續往下走；覺得不對勁，模型可能開始回頭、改寫、重新探索。也就是說，我們看到的 backtracking、self-correction、verbosity，可能都不是孤立現象，而是同一個內部訊號的外顯。\u003C\u002Fp>\u003Cp>論文選擇 Qwen3-8B 當主要對象，試著把這個訊號從 activation space 裡面拆出來。它的重點很務實：不要只看輸出像不像自信，而是要找出能解釋這些行為的內部方向。\u003C\u002Fp>\u003Ch2>方法怎麼做：把「價值」變成一條軸\u003C\u002Fh2>\u003Cp>這篇論文的核心做法，是從 synthetic 的 in-context \u003Ca href=\"\u002Ftag\u002Freinforcement-learning\">reinforcement learning\u003C\u002Fa> 資料中建出一條「value」軸。白話一點說，作者先設計出受控的上下文例子，讓模型在類似「邊做邊學」的情境下運作，再從這些例子裡找出和高成功、低成功相關的 activation 方向。\u003C\u002Fp>\u003Cp>這條軸不是只拿來看而已。作者還會沿著這條軸去 steer 模型，也就是把模型往高價值或低價值方向推，然後觀察輸出行為有沒有跟著變。這一步很關鍵，因為它是在問：這條軸只是描述性的相關性，還是真的會影響生成？\u003C\u002Fp>\u003Cp>換句話說，作者把模型內部當成一個儀表板。如果某個方向真的在表示「我大概在正確路徑上」，那麼把模型往上或往下推，\u003Ca href=\"\u002Fnews\u002Fdoe-land-ai-infrastructure-fast-zh\">應該\u003C\u002Fa>就會改變它接下來怎麼寫。\u003C\u002Fp>\u003Cp>這個方法的另一個重點，是它不是只卡在單一任務。論文把 value axis 拿去比較不同型態的行為，包括 verbalized confidence 的高低、會不會 backtrack 的 rollout、以及正確與被破壞的 \u003Ca href=\"\u002Fnews\u002Fwindsurf-turns-coding-into-agent-driven-editing-zh\">code\u003C\u002Fa>。這些表面上看起來很不一樣，但作者想\u003Ca href=\"\u002Fnews\u002Fbotanix-shutdown-proves-bitcoin-defi-lacks-demand-zh\">證明\u003C\u002Fa>的是：同一條內部軸，可以把它們分開。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>主結果是，這條學出來的 value axis，確實能區分多種行為。論文指出，它可以分開高與低的 verbalized confidence，也可以分開會 backtrack 和不會 backtrack 的 rollout，還能分開正確與被污染的 code。這代表模型內部的訊號，可能不是只對某個單一任務有效，而是更接近一種廣義的「目前路徑值不值得走下去」的估計。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781589777432-kk03.png\" alt=\"語言模型有一條「價值軸」\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>更重要的是，steering 有明顯的因果效果。把模型往高 value 推，會壓低 self-correction，也會讓解釋變得沒那麼冗長。反過來，把模型往低 value 推，則會誘發 backtracking 和探索。這表示這條軸不只是被動量測到的特徵，而是跟生成動態真的綁在一起。\u003C\u002Fp>\u003Cp>論文也看了 direct preference optimization，也就是 DPO。作者發現，DPO 可以提高被獎勵行為的內部價值，例如某個特定詞彙一旦被偏好後，模型對這類行為的內部 value 也會上升，而模型在做出這些行為後，會表現得更自信。這點對實務很有提醒作用：偏好訓練不只會改輸出內容，也可能改掉模型對「我是不是走在好路上」的內部判斷。\u003C\u002Fp>\u003Cp>論文還把這條軸帶到比較真實的情境。作者發現，在 in-the-wild 的設定裡，\u003Ca href=\"\u002Ftag\u002Fqwen\">Qwen\u003C\u002Fa> 在 post-training 後，對政治敏感的聊天查詢會給出較低的 value；而 supervised fine-tuning 會讓模型在訓練領域內的 internal confidence 上升。這些觀察把論點從合成資料延伸到較自然的使用情境。不過，摘要沒有公開完整 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 細節，也沒有列出標準數字，所以這裡的證據比較偏機制分析，而不是排行榜式驗證。\u003C\u002Fp>\u003Cp>再講白一點，這篇不是在說「某個指標提升了幾分」。它是在說：模型內部可能真的有一個可線性讀出的成功預期，而且這個預期會影響它要不要繼續、要不要回頭、要不要多講幾句。\u003C\u002Fp>\u003Ch2>對開發者有什麼影響\u003C\u002Fh2>\u003Cp>如果你在做模型 steering、alignment、interpretability 或除錯，這篇提供了一個很有用的控制手把。所謂的 latent value signal，可能可以幫你理解模型什麼時候會持續往下推、什麼時候會開始修正自己、什麼時候會變得更囉唆或更保守。\u003C\u002Fp>\u003Cp>這在很多場景都很實際。比如說，模型在某些 post-training 之後突然變得過度自信，你可能要懷疑的不只是文字風格，而是它內部對成功的估計被改了。又或者模型老是在中途回頭、重想，問題可能不是單純「輸出不穩」，而是低 internal value 在驅動探索。若模型被 steer 之後變得特別簡短，也可能不是單純語氣改變，而是內部 confidence state 變了。\u003C\u002Fp>\u003Cp>更值得注意的是，DPO 這類方法可能會改變模型對被獎勵行為的內部 value。這代表訓練不只是改「它喜歡說什麼」，也可能改「它在出現這些行為後，對自己目前路徑有多有信心」。對做訓練的人來說，這是很重要的提醒。\u003C\u002Fp>\u003Ch2>這篇沒有證明什麼\u003C\u002Fh2>\u003Cp>這篇摘要支持主張，但也留下幾個明顯限制。第一，研究主體是 Qwen3-8B，所以不能直接推論所有語言模型家族都會有同樣的 axis，或同樣的行為模式。\u003C\u002Fp>\u003Cp>第二，value axis 是從 synthetic 的 in-context reinforcement learning 資料建出來的。這對分析很有幫助，因為條件可控；但它不等於已經證明這個機制在所有真實工作負載、所有分布偏移下都成立。\u003C\u002Fp>\u003Cp>第三，摘要雖然展示了相關性與 steering 的因果效果，但沒有說清楚這條軸在不同 layer、不同 prompt、不同任務或不同模型大小上的穩定度。也沒有公開完整 benchmark 數字，所以讀者應該把它視為一篇機制導向的 interpretability 研究，而不是完整的效能評測。\u003C\u002Fp>\u003Cp>即便如此，這篇的訊息還是很清楚：語言模型可能會線性地編碼一個「預期目標成功率」，而這個編碼會影響 confidence、自我修正與探索行為。對工程師來說，這是一個可以進一步 probing、也可能可以被控制的新切口。\u003C\u002Fp>\u003Ch2>結論\u003C\u002Fh2>\u003Cp>這篇論文替很多人早就懷疑的事情，補上了一個可測的說法：模型不只是吐出自信，它可能真的在內部追蹤目前路徑是不是值得走下去。如果這個結果之後能在更多模型與更多情境中重現，那它會成為理解 \u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> 行為的一個新工具。\u003C\u002Fp>\u003Cp>對\u003Ca href=\"\u002Ftag\u002F台灣開發者\">台灣開發者\u003C\u002Fa>來說，這代表 post-training 的影響可能比表面更深。它不只會改輸出風格，也可能改掉模型自己的「成功感」。而且這種變化，還能被 steer、被觀察、甚至在某些情況下被因果地操控。\u003C\u002Fp>\u003Cul>\u003Cli>它找出一條和預期成功率相關的線性 activation 方向。\u003C\u002Fli>\u003Cli>它證明沿著這條方向 steer，會改變自我修正、冗長度與探索行為。\u003C\u002Fli>\u003Cli>它提醒我們，偏好訓練可能同時改變輸出與內部信心。\u003C\u002Fli>\u003C\u002Ful>","這篇論文指出，Qwen3-8B 內部會估計自己目前路徑成功的機率，且可被線性軸辨識並操控。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.17056",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781589777319-s2yz.png","research","zh","01f05d3f-fb22-4194-b211-bfe8e02bd544",[17,18,19,20,21,22],"language models","value axis","Qwen3-8B","interpretability","DPO","activation space",[24,25,26],"模型可能內部追蹤目前路徑的成功機率。","這個訊號可被線性分離，還能被因果 steering。","偏好訓練可能同時改變輸出與內部信心。",0,"2026-06-16T06:02:35.459663+00:00","2026-06-16T06:02:35.451+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":32,"relatedLang":35,"relatedPosts":39},[33],{"name":17,"slug":34},"language-models",{"id":15,"slug":36,"title":37,"language":38},"language-models-value-axis-en","Language models have a “value axis”","en",[40,46,52,58,64,70],{"id":41,"slug":42,"title":43,"cover_image":44,"image_url":44,"created_at":45,"category":13},"4c04ff19-06b6-4917-92df-189e6a34886b","exact-posterior-scores-inverse-problems-zh","精確後驗分數解線性反問題","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781591581223-cx37.png","2026-06-16T06:32:31.505084+00:00",{"id":47,"slug":48,"title":49,"cover_image":50,"image_url":50,"created_at":51,"category":13},"4d112775-a2e2-4f60-b930-0fe333a2e42c","contextrl-teaches-llms-to-pick-right-evidence-zh","ContextRL 讓 LLM 學會挑證據","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781590688900-6wns.png","2026-06-16T06:17:29.909578+00:00",{"id":53,"slug":54,"title":55,"cover_image":56,"image_url":56,"created_at":57,"category":13},"2a2b904a-d812-40ae-bdac-dc07bc6afd45","persona-pruner-lightweight-role-playing-models-zh","Persona-Pruner：把大模型修成角色專用小腦袋","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781505181281-pq7r.png","2026-06-15T06:32:24.904806+00:00",{"id":59,"slug":60,"title":61,"cover_image":62,"image_url":62,"created_at":63,"category":13},"d77cb1e8-9169-416f-a673-317bc4e2ee39","clinhallu-medical-mllm-hallucination-benchmark-zh","ClinHallu 追蹤醫療 MLLM 幻覺來源","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781504269169-ifu4.png","2026-06-15T06:17:22.803066+00:00",{"id":65,"slug":66,"title":67,"cover_image":68,"image_url":68,"created_at":69,"category":13},"8ceebbae-fce7-4672-9aaa-83f087961e43","gaze-heads-steering-vlms-attention-zh","用注意力頭引導 VLM 看圖說話","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781503374052-ojne.png","2026-06-15T06:02:26.201961+00:00",{"id":71,"slug":72,"title":73,"cover_image":74,"image_url":74,"created_at":75,"category":13},"e6c76870-1fa5-45e5-bb8c-436070b9e5cc","ai-benchmarks-2026-evaluations-limits-zh","AI Benchmarks 2026：高分撞上天花板","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781381872937-6kjx.png","2026-06-13T20:17:25.971321+00:00",[77,82,87,92,97,102,107,112,117,122],{"id":78,"slug":79,"title":80,"created_at":81},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":83,"slug":84,"title":85,"created_at":86},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":88,"slug":89,"title":90,"created_at":91},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":93,"slug":94,"title":95,"created_at":96},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":98,"slug":99,"title":100,"created_at":101},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":103,"slug":104,"title":105,"created_at":106},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":108,"slug":109,"title":110,"created_at":111},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":113,"slug":114,"title":115,"created_at":116},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":118,"slug":119,"title":120,"created_at":121},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":123,"slug":124,"title":125,"created_at":126},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]