[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-variable-width-transformers-cut-wasted-capacity-zh":3,"article-related-variable-width-transformers-cut-wasted-capacity-zh":30,"series-research-7cd85acd-4f96-43b7-a980-db5092ece240":79},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"7cd85acd-4f96-43b7-a980-db5092ece240","variable-width-transformers-cut-wasted-capacity-zh","可變寬度 Transformer 省算力","\u003Cp data-speakable=\"summary\">這篇論文證明，Transformer 不必每一層都同寬；把前後層加寬、中央層縮窄，可以在維持表現下減少計算與記憶體。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：arXiv 摘要未明確標註\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：FLOPs 減少 22%\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：前後寬、中間窄\u003C\u002Fli>\u003C\u002Ful>\u003Cp>\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.18246\">Variable-Width Transformers\u003C\u002Fa> 想處理的是\u003Ca href=\"\u002Fnews\u002Fnavi-gives-restaurants-one-chat-for-ops-zh\">一個\u003C\u002Fa>很直白的問題：既然 Transformer 的不同深度，可能在做不同的事，為什麼每一層都要硬塞成同樣寬度？這篇論文提出的答案是，不用。它把容量重新分配到深度方向上，讓前段和後段更寬，中段更窄，目標是用更少的平均寬度，換到更好的效率。\u003C\u002Fp>\u003Cp>這不是在改訓練技巧，也不是在發明新的優化器。它\u003Ca href=\"\u002Fnews\u002Fopenalternative-software-replacement-comparison-zh\">比較\u003C\u002Fa>像是在重新畫模型結構圖。對工程師來說，這種改法的吸引力很直接：寬度會影響參數量、計算量、記憶體占用，還會牽動推理時的快取壓力。只要平均寬度能降下來，整體成本就有機會跟著下修。\u003C\u002Fp>\u003Ch2>這篇論文要解的痛點\u003C\u002Fh2>\u003Cp>多數 Transformer 都是從第一層到最後一層維持固定 hidden size。這樣做的好處是簡單，實作也一致，但代價是每一層拿到的容量都一樣，不管那層到底需不需要那麼多資源。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781677978302-5pqn.png\" alt=\"可變寬度 Transformer 省算力\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>論文的切入點，是把這件事看成「容量分配」問題，而不是單純的「模型要不要更大」問題。作者認為，淺層、中段、深層可能承擔不同功能；如果真的如此，平均分配寬度就不一定是最省的做法。某些地方可能太寬，某些地方反而不夠用。\u003C\u002Fp>\u003Cp>這個想法對受限環境特別有意義。當訓練預算、推理延遲、\u003Ca href=\"\u002Ftag\u002Fkv-cache\">KV cache\u003C\u002Fa> 大小都有限時，模型結構本身的設計就會直接影響能不能部署、能不能擴充、以及成本是不是還能接受。\u003C\u002Fp>\u003Ch2>方法怎麼做：把寬度做成「沙漏」\u003C\u002Fh2>\u003Cp>這篇論文的架構可以想成一個「×」形或沙漏形的 Transformer。前面的層比較寬，中間縮窄，後面再放寬。和傳統那種整條直線一樣寬的設計相比，它不是平均灑資源，而是刻意把資源往兩端集中。\u003C\u002Fp>\u003Cp>要讓這件事可行，論文用了 parameter-free residual resizing。這點很關鍵，因為不同層的寬度不一樣時，殘差流要在不同維度之間轉換，不能只是把寬度改了就算。作者的做法是盡量保持輕量，不額外塞進很多新的可學參數，避免把架構變得更重、更難控。\u003C\u002Fp>\u003Cp>白話一點說，就是讓模型在邊緣「呼吸」得更寬，中段「收縮」一下。它不是把每一層都變小，而是把總容量重新排版，讓平均寬度下降，但重要區段仍保留足夠表現力。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>這篇摘要裡最重要的結果，是可變寬度設計在語言模型 loss 上，穩定優於參數量對齊的 uniform baseline。作者測了 dense decoder-only 模型，規模從 200M 到 2B 參數，也測了 3B 的 \u003Ca href=\"\u002Ftag\u002Fmoe\">MoE\u003C\u002Fa> 模型。摘要提供的結論是跨這些設定都成立。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781677985598-jh2r.png\" alt=\"可變寬度 Transformer 省算力\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>在資源面，作者也給出具體節省。根據 fitted loss-matched scaling curves，這種設計把整體 FLOPs 降了 22%。另外，KV cache 記憶體和 I\u002FO 成本也降了 15%。對做推理部署的人來說，這兩個數字都很實際，因為它們直接對應到硬體壓力和服務成本。\u003C\u002Fp>\u003Cp>論文還提到，這種 bottleneck 結構會讓 residual stream 的表徵出現質變。摘要沒有把所有診斷細節展開，但重點很明確：這不是單純把同樣的事情用更少 channel 做完，而是內部表徵動態真的變了，而且看起來和非均勻寬度安排有關。\u003C\u002Fp>\u003Cp>不過，摘要沒有公開完整 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 細節。沒有逐任務分數，也沒有每個模型的 loss 差距表。就摘要能看到的資訊來說，我們可以確定方向是正向的，但還不能把完整幅度講得太細。\u003C\u002Fp>\u003Ch2>對開發者有什麼影響\u003C\u002Fh2>\u003Cp>如果你在做模型訓練或部署，寬度其實是最貴的旋鈕之一。它影響參數量，也影響 activation 大小、KV cache 佔用，還會影響每層要做多少運算。只要平均寬度下降一點，訓練和推理的成本都有機會跟著下來。\u003C\u002Fp>\u003Cp>這篇論文的價值，在於它提供了一個不同於 pruning、quantization 的方向。不是先把模型做大再裁掉，而是從一開始就重新設計容量分布。對想做 scaling law、做 architecture search，或是在算力很緊的情況下維持品質的團隊，這種思路值得放進候選\u003Ca href=\"\u002Fnews\u002Fwikipedia-foss-packages-tool-map-zh\">清單\u003C\u002Fa>。\u003C\u002Fp>\u003Cp>另一個實務重點是，省 FLOPs 的架構不一定值得用，如果它會帶來很重的實作負擔。這篇方法之所以有吸引力，就是因為 residual resizing 被做成 parameter-free，沒有把設計複雜度再往上推太多。至少從摘要看，它保留了相對乾淨的結構。\u003C\u002Fp>\u003Ch2>限制與還沒說清楚的地方\u003C\u002Fh2>\u003Cp>摘要沒有告訴我們，這個方法在下游任務上會怎麼表現。它目前講的是 language modeling loss，還沒有看到更完整的任務面證據。也沒有說明這個寬度分布是不是對所有模型家族都一樣有效。\u003C\u002Fp>\u003Cp>訓練穩定性、對最佳化的敏感度、以及接到既有 codebase 會不會麻煩，摘要也都沒有交代。這些對工程落地其實很重要，因為一個架構只要多幾個維度轉換點，整個實作和除錯成本就可能上升。\u003C\u002Fp>\u003Cp>還有一個問題是尺度外推。摘要給出的 22% FLOPs 降幅和 15% KV cache \u002F I\u002FO 降幅，都是在作者的 fitted scaling 分析和測試模型範圍內得到的。這代表它是個強訊號，但還不能直接當成所有情境都成立的保證。\u003C\u002Fp>\u003Ch2>總結\u003C\u002Fh2>\u003Cp>這篇論文的核心訊息很簡單：Transformer 不一定要每層同寬。把容量往前後層集中、把中間層縮窄，可能同時拿到更好的 loss 和更低的資源消耗。\u003C\u002Fp>\u003Cp>對開發者來說，這提醒了一件事：模型效率不只來自剪枝或量化，也可能來自架構本身的重新分配。當你在意推理成本、記憶體壓力、或訓練預算時，怎麼分配寬度，可能比一味把模型做大更重要。\u003C\u002Fp>\u003Cul>\u003Cli>非均勻寬度在參數對齊下優於 uniform baseline。\u003C\u002Fli>\u003Cli>摘要給出的節省是 FLOPs 降 22%，KV cache 記憶體與 I\u002FO 成本降 15%。\u003C\u002Fli>\u003Cli>方法核心是沙漏式寬度排布，加上 parameter-free residual resizing。\u003C\u002Fli>\u003C\u002Ful>","這篇論文證明，Transformer 不必每一層都同寬；把前後層加寬、中央層縮窄，可以在維持表現下減少計算與記憶體。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.18246",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781677978302-5pqn.png","research","zh","434fbb0a-e925-43f3-9c3d-a3fbd187acdc",[17,18,19,20,21],"Transformer","variable width","FLOPs","KV cache","MoE",[23,24,25],"Transformer 不必每層同寬，前後寬、中間窄可降低平均成本。","摘要顯示這種設計在語言模型 loss 上優於參數對齊的 uniform baseline。","方法的工程價值在於同時減少 FLOPs、KV cache 與 I\u002FO 壓力。",0,"2026-06-17T06:32:32.22399+00:00","2026-06-17T06:32:32.201+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":31,"relatedLang":38,"relatedPosts":42},[32,34,36],{"name":33,"slug":33},"transformer",{"name":20,"slug":35},"kv-cache",{"name":21,"slug":37},"moe",{"id":15,"slug":39,"title":40,"language":41},"variable-width-transformers-cut-wasted-capacity-en","Variable-Width Transformers cut wasted capacity","en",[43,49,55,61,67,73],{"id":44,"slug":45,"title":46,"cover_image":47,"image_url":47,"created_at":48,"category":13},"f0501097-0bec-43ec-b310-56fc442ab53c","arxiv-ai-papers-agents-memory-data-zh","ArXiv這批 AI 論文都在補三件事","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781685180920-w8wl.png","2026-06-17T08:32:36.427824+00:00",{"id":50,"slug":51,"title":52,"cover_image":53,"image_url":53,"created_at":54,"category":13},"a11f0446-10ed-4065-b079-fd59f9d7e6e1","reprorepo-github-issues-reproducibility-audits-zh","ReproRepo 用 GitHub issues 做可重現性稽核","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781678882881-amo7.png","2026-06-17T06:47:34.915676+00:00",{"id":56,"slug":57,"title":58,"cover_image":59,"image_url":59,"created_at":60,"category":13},"956f7918-ff9c-4c2d-b8a5-e12b4ad361f2","veritas-robot-policy-visual-verification-zh","VERITAS 讓機器人邊跑邊驗證","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781677082980-g8km.png","2026-06-17T06:17:37.525843+00:00",{"id":62,"slug":63,"title":64,"cover_image":65,"image_url":65,"created_at":66,"category":13},"60d92b7d-73c4-4da6-a3d8-3de30d8ada82","phase-noise-information-aging-massive-mimo-zh","相位雜訊讓大規模MIMO資訊老化","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781641075077-kuxz.png","2026-06-16T20:17:27.875482+00:00",{"id":68,"slug":69,"title":70,"cover_image":71,"image_url":71,"created_at":72,"category":13},"83b83aaf-90bf-44d6-a2c8-74665bfe99b8","ai-model-benchmarks-gpt-55-claude-gemini-en-zh","18 項 AI 基準更新：GPT-5.5、Claude、Gemini 同場比拼","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781636583869-5rox.png","2026-06-16T19:02:23.356505+00:00",{"id":74,"slug":75,"title":76,"cover_image":77,"image_url":77,"created_at":78,"category":13},"4c04ff19-06b6-4917-92df-189e6a34886b","exact-posterior-scores-inverse-problems-zh","精確後驗分數解線性反問題","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781591581223-cx37.png","2026-06-16T06:32:31.505084+00:00",[80,85,90,95,100,105,110,115,120,125],{"id":81,"slug":82,"title":83,"created_at":84},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":86,"slug":87,"title":88,"created_at":89},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":91,"slug":92,"title":93,"created_at":94},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":96,"slug":97,"title":98,"created_at":99},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":101,"slug":102,"title":103,"created_at":104},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":106,"slug":107,"title":108,"created_at":109},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":111,"slug":112,"title":113,"created_at":114},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":116,"slug":117,"title":118,"created_at":119},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":121,"slug":122,"title":123,"created_at":124},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":126,"slug":127,"title":128,"created_at":129},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]