[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-autotts-llms-discover-test-time-scaling-zh":3,"article-related-autotts-llms-discover-test-time-scaling-zh":29,"series-research-1ff5ab46-edd3-4ee3-b21e-a186f08ed550":82},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":11},"1ff5ab46-edd3-4ee3-b21e-a186f08ed550","autotts-llms-discover-test-time-scaling-zh","AutoTTS讓LLM自己找推理策略","\u003Cp data-speakable=\"summary\">AutoTTS把 test-time scaling 變成環境搜尋問題，讓 \u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> 自動找出更省算力的推理策略。\u003C\u002Fp>\u003Cp>推理階段多花一點算力，語言模型常常就能答得更好。這件事在實務上很有吸引力，因為它不一定要重訓模型，只要把 inference 時的計算分配好，效果就可能往上拉。\u003C\u002Fp>\u003Cp>問題也很明顯：現在很多 test-time scaling 做法，還是靠研究者手動設計。怎麼分支、怎麼延續、\u003Ca href=\"\u002Fnews\u002Fwhy-adala-is-the-wrong-way-to-think-about-data-labeling-zh\">什麼\u003C\u002Fa>時候探測、什麼時候剪枝、什麼時候停下來，往往都靠經驗和直覺。這篇論文想處理的，就是這個「人手調策略」的瓶頸。\u003C\u002Fp>\u003Cp>論文標題是 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.08083\">LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling\u003C\u002Fa>。它提出 AutoTTS，把 test-time scaling 改寫成一個可以在環境裡自動搜尋的問題，而不是每一招都要研究者自己想。\u003C\u002Fp>\u003Ch2>這篇在補哪個洞\u003C\u002Fh2>\u003Cp>作者的起點不是懷疑 test-time scaling 沒用。相反地，論文直接把它當成一個已經有價值的方法：在推理時投入更多計算，通常能換到更好的表現。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778479857028-4w21.png\" alt=\"AutoTTS讓LLM自己找推理策略\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>真正的痛點在於，這些額外算力到底怎麼用，還沒有被系統化處理。論文把現況描述成大量手工設計的策略，研究者會根據直覺去定義推理模式和各種 heuristic，但這也代表很多可能的計算分配方式根本還沒被探索到。\u003C\u002Fp>\u003Cp>對開發者來說，這件事很現實。推理算力貴，而且通常是線上成本。若能找到一個不用人工反覆調參、卻能維持更好 accuracy-cost tradeoff 的方法，部署時的可擴展性會高很多。\u003C\u002Fp>\u003Cp>所以這篇不是在談「要不要多花算力」，而是在談「多花的算力要怎麼被更聰明地分配」。這也是 AutoTTS 的核心切入點。\u003C\u002Fp>\u003Ch2>AutoTTS 到底怎麼運作\u003C\u002Fh2>\u003Cp>AutoTTS 的重點，是把設計單位從單一 heuristic 改成一個可搜尋的環境。作者說，這個環境至少要做到兩件事：控制空間要夠可管理，回饋要夠便宜，而且要夠頻繁，搜尋才有機會跑得動。\u003C\u002Fp>\u003Cp>論文裡實作的主軸是 width-depth test-time scaling。白話一點說，系統會先用預先收集好的 reasoning trajectories 和 probe signals，然後在這些資料上合成 controller。這個 controller 決定下一步要做什麼：分支、繼續、探測、剪枝，或是直接停止。\u003C\u002Fp>\u003Cp>這裡最關鍵的地方，是 controller 的評估不需要每次都重新呼叫 LLM。也就是說，搜尋過程可以用比較便宜的方式反覆試，避免 disc\u003Ca href=\"\u002Fnews\u002Fmicrosoft-goalcover-fine-tuning-gaps-zh\">over\u003C\u002Fa>y 階段就把推理成本燒爆。對做自動化搜尋的人來說，這一點很重要，因為它直接決定方法能不能落地。\u003C\u002Fp>\u003Cp>作者還加了兩個設計來讓搜尋更好做。第一個是 beta parameterization，用來讓搜尋空間維持在可處理、而且夠細的範圍。第二個是 fine-grained execution trace feedback，讓 \u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa> 能看見 test-time scaling program 為什麼失敗，進而提升 discovery 效率。\u003C\u002Fp>\u003Cp>換句話說，AutoTTS 不是單純「讓模型自己想」。它更像是先搭一個可操作的環境，再讓系統在這個環境裡找出更好的推理控制策略。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>根據摘要，作者是在數學推理 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 上做實驗。結果顯示，AutoTTS 找到的策略，在整體 accuracy-cost tradeoff 上，優於強而有力的手工 baseline。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778479848619-t3r9.png\" alt=\"AutoTTS讓LLM自己找推理策略\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這句話很重要，因為它不是在說純準確率一定更高，而是在說「同樣要考慮成本時，整體表現更好」。對實際系統來說，這通常比單看 accuracy 更有意義。因為很多時候，你不是不能再多花一點算力，而是不能無上限地花。\u003C\u002Fp>\u003Cp>摘要也提到，這些自動找到的策略可以 generalize 到 held-out benchmarks 和不同 model scales。這代表它們不只是對單一測試集或單一模型尺寸過擬合，至少在論文描述裡，具備一定的可遷移性。\u003C\u002Fp>\u003Cp>另一個很吸睛的結果，是搜尋成本本身不高。論文聲稱整個 search 只花了 39.9 美元和 1\u003Ca href=\"\u002Fnews\u002Fai-weekly-2026-w20-zh\">60\u003C\u002Fa> 分鐘。對研究方法來說，這是一個很實用的數字，因為它把 AutoTTS 描述成一個可反覆跑的自動調整流程，而不是一次性的大型離線工程。\u003C\u002Fp>\u003Cp>不過，摘要沒有公開完整 benchmark 細節。它沒有給出精確的 accuracy 數字、每個資料集的分項結果，也沒有列出具體節省了多少成本。所以目前能確定的是方向與高層結論，不能從這份 raw 資料直接推到更細的量化比較。\u003C\u002Fp>\u003Ch2>對開發者有什麼影響\u003C\u002Fh2>\u003Cp>如果你在做推理型系統，這篇論文傳遞的訊號很直接：test-time scaling 可以被當成一個環境搜尋問題，而不是一組需要人工堆疊的技巧。這會讓 inference optimization 更系統化，也比較不依賴「誰比較會調 prompt」這種經驗差距。\u003C\u002Fp>\u003Cp>對工程實作來說，這種思路也提醒一件事：搜尋能不能成功，往往不只看演算法，還看環境設計。你得先把控制空間做得夠小、回饋做得夠便宜，agent 才有可能在裡面找到有用的 policy。這跟很多自動化優化問題其實是同一個道理。\u003C\u002Fp>\u003Cp>如果把它放到產品或系統角度看，AutoTTS 的價值不是「再發明一個更聰明的推理招式」，而是提供一條比較可擴展的路：讓模型自己在受控環境裡找出更好的推理控制方式。這對要長期維持成本與效果平衡的團隊，會比單次手工調整更有吸引力。\u003C\u002Fp>\u003Cul>\u003Cli>它把 test-time scaling 從手工 heuristic，改成可搜尋的環境問題。\u003C\u002Fli>\u003Cli>它用預先收集的 reasoning trajectories 和 probe signals，避免搜尋時反覆呼叫 LLM。\u003C\u002Fli>\u003Cli>它強調的是 accuracy-cost tradeoff，不是只追求更高準確率。\u003C\u002Fli>\u003Cli>它在摘要中宣稱可泛化到 held-out benchmarks 和不同 model scales。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>限制與還沒回答的問題\u003C\u002Fh2>\u003Cp>這篇摘要最明顯的限制，是它聚焦在數學推理 benchmark。這代表目前還不能直接知道，這套方法能不能同樣適用在 coding、工具使用，或更開放式的 assistant 任務。\u003C\u002Fp>\u003Cp>另一個還沒拆開的問題，是成果到底有多少來自 width-depth 這個特定 formulation，又有多少來自「環境驅動 discovery」這個更大的想法。摘要沒有提供足夠細節去分辨這兩者的貢獻。\u003C\u002Fp>\u003Cp>還有一個實作門檻不能忽略：方法依賴 pre-collected reasoning trajectories 和 probe signals。這表示要用 AutoTTS，不是只把模型丟進去就好，前面還要有資料管線和追蹤訊號的準備。對研究團隊或 instrumentation 做得比較完整的系統，這可能可行；但對資源較少的團隊，仍然是成本。\u003C\u002Fp>\u003Cp>總結來看，這篇論文的重點很清楚：如果想把推理階段的表現再往上推，可能不能只靠人類一個個設計策略，而是要建立一個能讓策略被發現的環境。對關心模型效率、自動化推理政策、或 agentic optimization loop 的開發者來說，這是一個值得注意的方向。\u003C\u002Fp>","AutoTTS把 test-time scaling 變成環境搜尋問題，讓 LLM 在推理時自動找出更省算力的策略，而不是靠人手調 heuristics。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.08083",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778479857028-4w21.png","research","zh","afddc8c2-ae3d-416b-bacd-63d8d4e4899b",[17,18,19,20,21],"test-time scaling","LLM reasoning","environment search","inference efficiency","accuracy-cost tradeoff",[23,24,25],"AutoTTS 把 test-time scaling 變成環境搜尋問題，而不是手工 heuristic 設計。","論文主打 width-depth test-time scaling，靠預收集 trajectories 與 probe signals 合成 controller。","摘要宣稱在數學推理 benchmark 上改善 accuracy-cost tradeoff，且搜尋成本只有 39.9 美元、160 分鐘。",4,"2026-05-11T06:10:29.812426+00:00","2026-05-11T06:10:29.719+00:00",{"tags":30,"relatedLang":41,"relatedPosts":45},[31,33,35,37,39],{"name":17,"slug":32},"test-time-scaling",{"name":19,"slug":34},"environment-search",{"name":21,"slug":36},"accuracy-cost-tradeoff",{"name":20,"slug":38},"inference-efficiency",{"name":18,"slug":40},"llm-reasoning",{"id":15,"slug":42,"title":43,"language":44},"autotts-llms-discover-test-time-scaling-en","AutoTTS lets LLMs discover test-time scaling","en",[46,52,58,64,70,76],{"id":47,"slug":48,"title":49,"cover_image":50,"image_url":50,"created_at":51,"category":13},"33c9a55c-a8c0-4367-b742-f4567d1e98e3","mathematicians-warn-ai-could-distort-math-zh","數學界警告 AI 會扭曲證明標準","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780504386035-080l.png","2026-06-03T16:32:29.415063+00:00",{"id":53,"slug":54,"title":55,"cover_image":56,"image_url":56,"created_at":57,"category":13},"5c3cb90f-7efd-426f-8c09-32a303f82be9","humanoid-gpt-zero-shot-motion-tracking-zh","Humanoid-GPT：用 GPT 擴大動作追蹤","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780469319284-znpc.png","2026-06-03T06:47:34.463464+00:00",{"id":59,"slug":60,"title":61,"cover_image":62,"image_url":62,"created_at":63,"category":13},"e3a4b0f7-03b3-43c6-ae51-906b337c5c2f","ipt-vlms-hidden-space-reasoning-zh","IPT 讓 VLM 更會想像隱藏空間","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780468394735-1k40.png","2026-06-03T06:32:46.560029+00:00",{"id":65,"slug":66,"title":67,"cover_image":68,"image_url":68,"created_at":69,"category":13},"5fca9fe5-af66-47ce-85f0-0ffe1bee30b9","neuron-selectivity-changes-with-scale-zh","神經元選擇性會隨規模改變","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780467514422-7oss.png","2026-06-03T06:17:44.126547+00:00",{"id":71,"slug":72,"title":73,"cover_image":74,"image_url":74,"created_at":75,"category":13},"9f9c2a61-d058-4c62-bb88-106e683657f0","nasa-landsat-wild-disturbances-rising-zh","NASA Landsat：野火與風暴變多","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780448581102-owp0.png","2026-06-03T01:02:37.513233+00:00",{"id":77,"slug":78,"title":79,"cover_image":80,"image_url":80,"created_at":81,"category":13},"3479bdee-21fb-4fda-9572-9394caba01b0","adacodec-predictive-visual-code-video-mllms-zh","AdaCodec 用預測碼壓縮影片 token","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780381988591-z2sp.png","2026-06-02T06:32:28.249023+00:00",[83,88,93,98,103,108,113,118,123,128],{"id":84,"slug":85,"title":86,"created_at":87},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":89,"slug":90,"title":91,"created_at":92},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":94,"slug":95,"title":96,"created_at":97},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":114,"slug":115,"title":116,"created_at":117},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":124,"slug":125,"title":126,"created_at":127},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":129,"slug":130,"title":131,"created_at":132},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]