[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-self-explanation-training-tracks-model-behavior-zh":3,"article-related-self-explanation-training-tracks-model-behavior-zh":30,"series-research-678566b8-297f-4efc-8b78-9e80c4cc1140":73},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"678566b8-297f-4efc-8b78-9e80c4cc1140","self-explanation-training-tracks-model-behavior-zh","固定解釋資料也能追上模型行為","\u003Cp data-speakable=\"summary\">這篇研究指出，固定不更新的解釋資料，仍能讓\u003Ca href=\"\u002Fnews\u002Ftrump-lifts-limits-anthropic-fable-mythos-zh\">模型\u003C\u002Fa>學會描述自己當下的行為，而且會跟著行為變化一起移動。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：arXiv 摘要未明確標註\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：摘要無公開 benchmark 數字\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：固定解釋仍能對齊行為\u003C\u002Fli>\u003C\u002Ful>\u003Cp>對做語言模型的人來說，這篇論文在問一個很實際的問題：你訓練模型去解釋自己的預測時，拿到的到底是真正的自我描述，還是只是把標註答案背熟？作者的答案不是單純的肯定或否定，而是更微妙：即使解釋資料是固定的，模型還是可能學到跟自己當下行為一致的說法。\u003C\u002Fp>\u003Cp>這個現象，作者稱為 \u003Cem>introspective coupling\u003C\u002Fem>。意思是，模型的解釋能力，會跟它的行為一起變。就算解釋目標來自較早期的 checkpoint，或來自另一個行為相近但不同家族的模型，最後訓練出的解釋，常常反而更貼近模型目前的行為，而不是原本那批標註所對應的舊行為。\u003C\u002Fp>\u003Ch2>這篇論文要解的痛點\u003C\u002Fh2>\u003Cp>語言模型很會講理由，但會講，不代表真的知道自己為什麼這樣答。這對除錯、安全分析、以及 post-training 很重要。因為團隊想看的不是漂亮文案，而是模型到底被哪些輸入特徵推著走。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782885778930-88u5.png\" alt=\"固定解釋資料也能追上模型行為\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>問題出在，解釋訓練很容易變成學格式、學語氣，而不是學內部決策過程。模型可以很像樣地回答「因為這個特徵重要」，但那不一定和它實際的輸出機制有關。\u003C\u002Fp>\u003Cp>這篇論文鎖定的是一種 counterfactual explanation training。做法不是叫模型抽象地解釋自己，而是用「輸入改變後，行為怎麼變」當監督訊號。白話一點，就是讓模型看見某些特徵一變，輸出也跟著變，再學著說出這些特徵為什麼重要。\u003C\u002Fp>\u003Cp>原本直覺會擔心一件事：如果這些解釋標註是舊的，或是從別的模型來的，那它們很快就會過時。模型後續又經過 post-training，行為可能已經變了，舊標註自然也不準了。\u003C\u002Fp>\u003Cp>但作者要\u003Ca href=\"\u002Fnews\u002Fopenai-rollout-delay-government-gates-zh\">證明\u003C\u002Fa>的，就是這個擔心不一定成立。至少在他們研究的情境裡，固定的解釋資料不會立刻失效，因為它仍然和模型的當前行為保持相關。\u003C\u002Fp>\u003Ch2>方法到底怎麼運作\u003C\u002Fh2>\u003Cp>核心方法很直白：用 counterfactual 的方式把「行為」和「輸入變化」綁在一起。訓練資料不是單純給一個標準答案，而是告訴模型，當某些輸入特徵改掉時，模型行為也會改，於是這些特徵就值得被說明。\u003C\u002Fp>\u003Cp>真正有趣的地方在 supervision 的來源。論文研究的是固定的 counterfactual 解釋，來源包括同一個模型較早期的 checkpoint，也包括行為相近、但屬於不同模型家族的系統。照理說，這些解釋應該會把模型往舊狀態拉。\u003C\u002Fp>\u003Cp>但結果不是那麼簡單。模型學到的解釋，往往更貼近它訓練當下的行為。作者把這種現象稱為 introspective coupling。重點不是模型真的有神祕的自省能力，而是解釋頭和模型行為之間，會在訓練過程中一起漂移。\u003C\u002Fp>\u003Cp>如果解釋資料和目前行為還保有足夠相關性，解釋訓練就能持續有效。也就是說，這種訓練訊號不一定要每一步都重做，只要它還跟現在的模型有連動，固定資料也能繼續發揮作用。\u003C\u002Fp>\u003Cp>這個觀點對工程實作很實用。它暗示一條比較省維護成本的路：你不一定要在模型每次更新後都重生解釋標註，至少在這篇論文觀察到的範圍內，固定資料還能撐一段時間。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>先講限制：這篇摘要沒有公開完整 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 數字，所以沒有什麼 accuracy 表、提升百分比，或明確的分數可以拿來比。這篇的證據比較偏行為觀察，而不是榜單競賽。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782885775994-soh6.png\" alt=\"固定解釋資料也能追上模型行為\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>作者主張的是，模型在固定 counterfactual 解釋資料上訓練後，常常會產生比原始訓練目標更貼近自己當前行為的解釋。換句話說，解釋不是死記舊標籤，而是跟著模型現在怎麼做一起變。\u003C\u002Fp>\u003Cp>他們也指出，這種 introspective coupling 會跟著行為變化走。當 explanation training 和其他 post-training objective 一起進行時，解釋也會跟著那些變化移動，不需要每次都更新監督資料。\u003C\u002Fp>\u003Cp>這點很重要，因為 post-training 常常就是在改模型行為。你今天在調 sycophancy，明天在調 refusal，模型的反應會變，而且很難預先知道會變成什麼樣。論文說，固定解釋訊號在這種情境下仍可能保持可用。\u003C\u002Fp>\u003Cp>摘要還提到，這個現象出現在 sycophancy 和 refusal 這類行為上。這不是玩具案例，而是開發者真的會在意的行為：模型會不會附和使用者、會不會拒答、會不會在安全邊界上表現一致。\u003C\u002Fp>\u003Cp>另外，作者也說這個效果對 label noise 有韌性。意思是，解釋標註不是百分之百乾淨時，方法也沒有立刻崩掉。對真實世界訓練來說，這很關鍵，因為實務資料本來就不完美。\u003C\u002Fp>\u003Cul>\u003Cli>固定的 counterfactual 解釋，仍可支援 post-training introspection。\u003C\u002Fli>\u003Cli>解釋品質可隨行為變化跟著移動，不一定要重標。\u003C\u002Fli>\u003Cli>sycophancy、refusal 都看得到，且能扛住部分 label noise。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>對開發者有什麼影響\u003C\u002Fh2>\u003Cp>如果你在做模型工具鏈，這篇的訊號很直接：固定解釋資料可能比你想像中耐用。這代表某些情況下，可以少做幾輪重標註，降低持續維護的成本。\u003C\u002Fp>\u003Cp>但它不是萬靈丹。摘要裡真正的前提是，解釋訓練要和目前行為保持足夠相關。如果模型漂得太遠，原本那批解釋當然還是會失準。論文沒有說任何舊解釋集都能永久通用。\u003C\u002Fp>\u003Cp>從系統角度看，這也提醒一件事：解釋訓練不是獨立於模型之外的一層靜態模組。它會和模型自己的學習動態纏在一起。這對想做可擴充 introspection 的團隊是好消息，但也代表解釋行為本身會變，而且不一定容易單獨拆開理解。\u003C\u002Fp>\u003Cp>如果你在做 alignment、refusal 行為控制，或 post-training 分析，這篇的實務結論可以濃縮成一句話：固定 counterfactual 解釋有機會成為可擴充的訊號，但你還是得持續確認它跟你真正上線的模型是否還對得上。\u003C\u002Fp>\u003Ch2>這篇沒證明什麼\u003C\u002Fh2>\u003Cp>摘要對範圍很保守，讀者也該保守一點。它沒有提供公開 benchmark 數字，所以不能拿來做特定基準的橫向比較。它也沒有說 introspective coupling 對所有模型家族、所有任務、所有訓練設定都成立。\u003C\u002Fp>\u003Cp>這篇真正的貢獻，是一個行為層面的發現：解釋訓練比大家原本想像的更能跟著模型行為一起走，即使監督資料是固定的。它不是把可解釋性一次解完，而是指出一條可能比想像中耐用的路。\u003C\u002Fp>\u003Cp>對工程師來說，這就夠有用了。如果解釋能在模型更新後不用一直重標，introspection 才比較像是能\u003Ca href=\"\u002Fnews\u002Fopenai-ai-phone-2028-mass-production-zh\">落地\u003C\u002Fa>的系統能力；如果不行，這篇至少提醒你，解釋資料的價值，很大一部分取決於它和當前模型的相關性。\u003C\u002Fp>\u003Cp>總結來說，這篇工作把 explanation training 從「靜態標籤模仿」推向更動態的模型自我描述觀。模型也許是吃舊資料長大的，但它吐出來的解釋，還是可能反映它現在到底在做什麼。\u003C\u002Fp>","這篇研究指出，固定不更新的解釋資料，仍能讓模型學會描述自己當下的行為，而且會跟著行為變化一起移動。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.32038",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782885778930-88u5.png","research","zh","28e23e1d-1463-4129-9d01-f0aa4e3578e6",[17,18,19,20,21],"counterfactual explanation","introspective coupling","post-training","refusal","sycophancy",[23,24,25],"固定解釋資料不一定過時，仍可能追上模型當前行為。","解釋訓練和模型行為會一起漂移，形成 introspective coupling。","對做 post-training、refusal 或安全分析的團隊，這可能降低重標註成本，但前提是相關性還在。",0,"2026-07-01T06:02:30.473402+00:00","2026-07-01T06:02:30.465+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":31,"relatedLang":32,"relatedPosts":36},[],{"id":15,"slug":33,"title":34,"language":35},"self-explanation-training-tracks-model-behavior-en","Self-Explanation Training Still Tracks Model Behavior","en",[37,43,49,55,61,67],{"id":38,"slug":39,"title":40,"cover_image":41,"image_url":41,"created_at":42,"category":13},"0ee8cc51-c309-4477-8914-82f7824161e3","rlmf-teaches-llms-express-uncertainty-better-zh","RLMF 讓 LLM 更會表達不確定","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782887572465-ag3v.png","2026-07-01T06:32:28.706553+00:00",{"id":44,"slug":45,"title":46,"cover_image":47,"image_url":47,"created_at":48,"category":13},"00a1011e-5e65-4d16-9ed4-208b129055d8","qval-dense-supervision-testbed-long-horizon-agents-zh","QVal 先測密集監督再訓練","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782886677076-dhmx.png","2026-07-01T06:17:33.66887+00:00",{"id":50,"slug":51,"title":52,"cover_image":53,"image_url":53,"created_at":54,"category":13},"8c68f33b-8ab7-40f8-96d6-cb854eb9b654","worldevolver-self-evolving-world-models-llm-planning-zh","WorldEvolver 讓 LLM 代理自我修正前瞻","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782801181629-6zpm.png","2026-06-30T06:32:28.902643+00:00",{"id":56,"slug":57,"title":58,"cover_image":59,"image_url":59,"created_at":60,"category":13},"c8de2902-230f-4a9f-a6c2-75bb234ca422","levo-2-full-length-song-generation-zh","LeVo 2 用分層建模做完整歌曲生成","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782800283385-laim.png","2026-06-30T06:17:32.014853+00:00",{"id":62,"slug":63,"title":64,"cover_image":65,"image_url":65,"created_at":66,"category":13},"e6db7892-cfae-4a48-ae72-0b56f71e737a","vlk-synthetic-humanoid-loco-manipulation-zh","VLK 用合成場景訓練人形機器人","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782799374468-q7z1.png","2026-06-30T06:02:29.630156+00:00",{"id":68,"slug":69,"title":70,"cover_image":71,"image_url":71,"created_at":72,"category":13},"d6f25c66-98f5-4971-8d1d-487fb5fe1881","claude-sonnet-46-sre-benchmark-rootly-zh","Claude Sonnet 4.6 對上 SRE 工作更接近 Opus","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782750780131-xelc.png","2026-06-29T16:32:28.457338+00:00",[74,79,84,89,94,99,104,109,114,119],{"id":75,"slug":76,"title":77,"created_at":78},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":80,"slug":81,"title":82,"created_at":83},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":85,"slug":86,"title":87,"created_at":88},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":90,"slug":91,"title":92,"created_at":93},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":95,"slug":96,"title":97,"created_at":98},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":100,"slug":101,"title":102,"created_at":103},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":105,"slug":106,"title":107,"created_at":108},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":110,"slug":111,"title":112,"created_at":113},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":115,"slug":116,"title":117,"created_at":118},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":120,"slug":121,"title":122,"created_at":123},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]