[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-worldevolver-self-evolving-world-models-llm-planning-zh":3,"article-related-worldevolver-self-evolving-world-models-llm-planning-zh":31,"series-research-8c68f33b-8ab7-40f8-96d6-cb854eb9b654":74},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":23,"views":27,"created_at":28,"published_at":29,"topic_cluster_id":30},"8c68f33b-8ab7-40f8-96d6-cb854eb9b654","worldevolver-self-evolving-world-models-llm-planning-zh","WorldEvolver 讓 LLM 代理自我修正前瞻","\u003Cp data-speakable=\"summary\">WorldEvolver 透過測試時記憶修訂，讓 \u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> 代理在不改權重下更新前瞻與規劃能力。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：arXiv 摘要未明確標註\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：摘要無公開 benchmark 數字\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：測試時記憶修訂\u003C\u002Fli>\u003C\u002Ful>\u003Cp>\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.30639\">Self-Evolving World Models for LLM Agent Planning\u003C\u002Fa>談的是一個很實際的問題：當 LLM 從聊天變成代理，能不能先預測行動後果，再決定要不要做？這篇論文的答案是，可以，但前提是前瞻不能只是一次性的輸出。它必須能在執行過程中跟著經驗修正，否則預測太吵、太錯，代理反而會把它當雜訊，甚至把規劃帶偏。\u003C\u002Fp>\u003Cp>這個方向對做長鏈任務的開發者很重要。因為規劃不是只生出一個看起來合理的下一步，而是要估計這一步會帶來什麼後果。這篇論文主張，問題不一定出在模型太小，也不一定要重新訓練整個策略；更關鍵的是，讓世界模型在部署時能依照累積到的互動經驗自我更新。\u003C\u002Fp>\u003Ch2>它想解的痛點是什麼\u003C\u002Fh2>\u003Cp>摘要把 world model 描述成一種讓 LLM 代理具備前瞻能力的方法。理論上很漂亮，但實務上會卡在一個老問題：預測不可靠。當模型對行動結果的估計不準，後續代理可能完全不信它、過度相信它，或被錯誤前瞻干擾決策。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782801181629-6zpm.png\" alt=\"WorldEvolver 讓 LLM 代理自我修正前瞻\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這其實就是規劃系統最常見的工程權衡。決策迴路吃進去的資訊，品質和時機都很重要。如果 world model 跟不上環境變化，或跟不上任務進度，代理最後就是拿著過期或誤導性的上下文在思考。\u003C\u002Fp>\u003Cp>WorldEvolver 的處理方式很直接：不動下游代理，不改模型權重，只修 deployment-time 的世界模型上下文。也就是說，它想讓模型在 runtime 變聰明，而不是靠重新訓練來補救。\u003C\u002Fp>\u003Ch2>WorldEvolver 怎麼運作\u003C\u002Fh2>\u003Cp>這個框架有三個模組。第一個是 Episodic Memory，做法是用真實的 action transition 搭配 retrieval-based simulation。白話來說，就是把過去真的發生過的互動拿來當證據，幫系統推估接下來可能會發生什麼。\u003C\u002Fp>\u003Cp>第二個是 Semantic Memory，負責從 prediction-observation mismatch 裡萃取長期有效的 heuristic rules。這一段很像把錯誤變成規則。不是每次失誤都當成獨立事件，而是試著從預測和現實的落差裡，整理出可重用的經驗。\u003C\u002Fp>\u003Cp>第三個模組是 Selective Foresight。它會先過濾低信心的預測，再把留下來的內容加進代理的推理上下文。這點很重要，因為論文不是說所有預測都要攤開給代理看，而是只讓通過信心門檻的前瞻進入決策流程。\u003C\u002Fp>\u003Cp>把三者合起來看，WorldEvolver 比較像一個會自我更新的筆記本，而不是重新訓練一個新模型。它記住具體事件，從錯誤中抽出規則，再把不夠穩的預測擋在外面，盡量讓規劃上下文保持乾淨。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>評估使用 ALFWorld 和 ScienceWorld。world model 的 prediction accuracy 以 Word2World 來衡量，\u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa> 的 downstream success rate 則看 AgentBoard。摘要沒有公開\u003Ca href=\"\u002Fnews\u002Flevo-2-full-length-song-generation-zh\">完整\u003C\u002Fa> \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 數字，所以這裡沒有辦法引用更細的分數。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782801178330-yn5a.png\" alt=\"WorldEvolver 讓 LLM 代理自我修正前瞻\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>但摘要明確說，WorldEvolver 在三個 backbone 上都拿到最高的 prediction accuracy，並且在 downstream agent success rate 上也領先其他 world model baseline。這是這篇論文最重要的結果：它不只把前瞻做得更準，也讓這些前瞻真的對規劃有用。\u003C\u002Fp>\u003Cp>這個組合很關鍵。很多系統在 prediction metric 上看起來很好，實際上卻沒有幫 agent 做出更好的動作。這篇論文宣稱兩邊都提升，代表它的 memory revision 策略不是只讓預測分數漂亮，而是有進到決策迴路裡發揮作用。\u003C\u002Fp>\u003Cp>另一個值得注意的點是，這個方法是在 test time 運作，而且 downstream agent 和所有 model parameters 都保持 frozen。對實作的人來說，這代表改善路徑和 fine-tuning 不一樣。你不是一定要改 base model，也不是一定要重訓 policy，而是改 agent 在規劃時看到的內容。\u003C\u002Fp>\u003Ch2>對開發者有什麼啟發\u003C\u002Fh2>\u003Cp>如果你在做需要多步驟執行的 agents，真正的問題通常不是模型能不能單步預測，而是系統能不能在任務進行中，持續把內部假設對齊現實。WorldEvolver 的切點就在這裡：它直接處理前瞻和現實之間的對齊問題。\u003C\u002Fp>\u003Cp>這個設計也很貼近工程實務。Episodic memory 很像查回以前的 trace，semantic memory 很像從失敗裡抽規則，selective foresight 很像用信心分數做 gating。這些模式開發者其實都不陌生，只是這篇論文把它們整\u003Ca href=\"\u002Fnews\u002Fvlk-synthetic-humanoid-loco-manipulation-zh\">合成\u003C\u002Fa>一個 agent planning loop。\u003C\u002Fp>\u003Cp>不過，摘要也留下不少空白。它沒有給出精確 benchmark 數字，也沒有說維護這些 memory modules 的成本是多少，更沒有提 retrieval 和 filtering 會增加多少 latency。除此之外，我們也看不到這個方法對不同 backbone 的敏感度，只知道摘要提到有三個 backbone 參與測試。\u003C\u002Fp>\u003Ch2>這篇研究的限制與下一步\u003C\u002Fh2>\u003Cp>就摘要來看，這篇論文最強的地方是方向清楚：不是要求一個 frozen model 永遠都要預測正確，而是讓它在和環境互動時，能根據經驗修正前瞻。這對長 horizon 任務、tool-using 系統，或 simulation-heavy workflow 都很有吸引力。\u003C\u002Fp>\u003Cp>如果這個方法在更多設定下也成立，它指向一種更大的模式：與其追求單一模型一次到位，不如讓 deployment context 隨經驗演化，而核心代理保持\u003Ca href=\"\u002Fnews\u002Fstablecoin-payments-faster-but-fees-lag-zh\">穩定\u003C\u002Fa>。對工程團隊來說，這可能是比硬改 prompt 更穩，也比重新訓練更省的中間路線。\u003C\u002Fp>\u003Cp>但就目前這份摘要而言，能確認的只有它的主張：self-evolving memory 可以讓 world model 更貼近現實，也更有助於規劃。摘要支持這個結論，因為它提到 ALFWorld、ScienceWorld、Word2World 和 AgentBoard 上都有比較結果；只是沒有公開數字，還不能判斷提升幅度到底有多大。\u003C\u002Fp>\u003Cul>\u003Cli>它修的是測試時上下文，不是重新訓練代理。\u003C\u002Fli>\u003Cli>三個模組分別處理記憶、規則萃取與信心過濾。\u003C\u002Fli>\u003Cli>摘要宣稱更準也更會做決策，但沒有公開完整數字。\u003C\u002Fli>\u003C\u002Ful>","WorldEvolver 透過測試時記憶修訂，讓 LLM 代理在不改權重下更新前瞻與規劃能力。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.30639",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782801181629-6zpm.png","research","zh","c6744f0f-9be6-4da8-8bab-3b4fbfe127ba",[17,18,19,20,21,22],"LLM agent","world model","test-time memory","planning","episodic memory","selective foresight",[24,25,26],"WorldEvolver 透過測試時記憶修訂，讓代理在不改權重下更新前瞻。","它把經驗拆成 episodic memory、semantic memory 和 selective foresight 三層。","摘要宣稱它同時提升預測準確率與下游成功率，但沒有公開完整 benchmark 數字。",0,"2026-06-30T06:32:28.902643+00:00","2026-06-30T06:32:28.892+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":32,"relatedLang":33,"relatedPosts":37},[],{"id":15,"slug":34,"title":35,"language":36},"worldevolver-self-evolving-world-models-llm-planning-en","WorldEvolver lets LLM agents revise foresight","en",[38,44,50,56,62,68],{"id":39,"slug":40,"title":41,"cover_image":42,"image_url":42,"created_at":43,"category":13},"c8de2902-230f-4a9f-a6c2-75bb234ca422","levo-2-full-length-song-generation-zh","LeVo 2 用分層建模做完整歌曲生成","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782800283385-laim.png","2026-06-30T06:17:32.014853+00:00",{"id":45,"slug":46,"title":47,"cover_image":48,"image_url":48,"created_at":49,"category":13},"e6db7892-cfae-4a48-ae72-0b56f71e737a","vlk-synthetic-humanoid-loco-manipulation-zh","VLK 用合成場景訓練人形機器人","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782799374468-q7z1.png","2026-06-30T06:02:29.630156+00:00",{"id":51,"slug":52,"title":53,"cover_image":54,"image_url":54,"created_at":55,"category":13},"d6f25c66-98f5-4971-8d1d-487fb5fe1881","claude-sonnet-46-sre-benchmark-rootly-zh","Claude Sonnet 4.6 對上 SRE 工作更接近 Opus","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782750780131-xelc.png","2026-06-29T16:32:28.457338+00:00",{"id":57,"slug":58,"title":59,"cover_image":60,"image_url":60,"created_at":61,"category":13},"29321237-6e9a-4271-b9fb-e43e798d5dff","glm-52-beats-claude-semgrep-idor-test-zh","GLM 5.2 在 IDOR 測試贏過 Claude","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782749882713-7i5n.png","2026-06-29T16:17:31.911487+00:00",{"id":63,"slug":64,"title":65,"cover_image":66,"image_url":66,"created_at":67,"category":13},"5172bfc7-34c8-4477-a177-ffa615497ecf","opd-distillation-skills-without-bruteforce-rl-zh","OPD 讓你把技能蒸餾進模型","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782730101413-5wjx.png","2026-06-29T10:47:57.457072+00:00",{"id":69,"slug":70,"title":71,"cover_image":72,"image_url":72,"created_at":73,"category":13},"6f5be102-5764-44f1-ab3f-722fc5c32c23","google-deepmind-turns-science-into-tools-zh","Google DeepMind把AI變研究工具","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782721105628-g4op.png","2026-06-29T08:17:57.716568+00:00",[75,80,85,90,95,100,105,110,115,120],{"id":76,"slug":77,"title":78,"created_at":79},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":81,"slug":82,"title":83,"created_at":84},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":86,"slug":87,"title":88,"created_at":89},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":91,"slug":92,"title":93,"created_at":94},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":96,"slug":97,"title":98,"created_at":99},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":101,"slug":102,"title":103,"created_at":104},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":106,"slug":107,"title":108,"created_at":109},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":111,"slug":112,"title":113,"created_at":114},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":116,"slug":117,"title":118,"created_at":119},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":121,"slug":122,"title":123,"created_at":124},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]