[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-tide-cross-architecture-diffusion-llm-distillation-zh":3,"article-related-tide-cross-architecture-diffusion-llm-distillation-zh":26,"series-research-a2761ec3-eb6a-4982-b95c-0400b46b33f5":77},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":11,"views":23,"created_at":24,"published_at":25,"topic_cluster_id":11},"a2761ec3-eb6a-4982-b95c-0400b46b33f5","tide-cross-architecture-diffusion-llm-distillation-zh","TIDE 讓跨架構蒸餾可行","\u003Cp data-speakable=\"summary\">TIDE 針對 diffusion LLM 的跨架構蒸餾，加入噪聲感知與 tokenizer 感知訓練，讓小模型更能學到大模型的能力。\u003C\u002Fp>\u003Cp>\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2604.26951\">Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models\u003C\u002Fa> 這篇論文，切的不是一般常見的「把大模型縮小」問題，而是更麻煩的一種情境：老師模型和學生模型根本不是同一種架構。對 diffusion LLM 來說，這種差異會牽涉 attention 設計、tokenizer，甚至文字是怎麼被表示與對齊。作者提出 TIDE，就是要處理這個跨架構知識移轉的落差。\u003C\u002Fp>\u003Cp>這個題目很實際。diffusion large language m\u003Ca href=\"\u002Fnews\u002Fwhy-deepseek-v4-plus-claude-code-is-the-wrong-way-to-judge-c-zh\">ode\u003C\u002Fa>ls 本來就主打平行解碼、雙向上下文，理論上很有吸引力；但真正能撐起效果的系統，往往還是體積大、成本高。若想把能力壓到更小的模型上，蒸餾幾乎是必經之路。問題在於，過去很多方法預設學生只是老師的縮小版，架構大致對得上。只要老師和學生的內部表示開始分岔，這個假設就不太成立了。\u003C\u002Fp>\u003Ch2>這篇論文想解的痛點\u003C\u002Fh2>\u003Cp>傳統 dLLM 蒸餾，很多是在同一架構內做 inference steps 壓縮，重點是讓模型更快、更省。這類方法對單一架構很有用，但它沒有真正處理「跨架構轉移」：老師和學生在結構上不同，甚至連 tokenizer 都不一樣。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1777529462046-z8hb.png\" alt=\"TIDE 讓跨架構蒸餾可行\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這件事不是小細節。學生模型學的不只是答案，還要學老師怎麼看文字、怎麼切 token、怎麼在不同遮罩狀態下做預測。如果 token 邊界不一致，或 masking 與 decoding 行為不同，老師給出的訊號就可能變得吵雜，甚至誤導學生。也就是說，單純模仿 logits，常常不夠。\u003C\u002Fp>\u003Cp>從摘要來看，TIDE 被定位成一個專門處理 cross-architecture dLLM distillation 的框架。它要解的不是「一個模型怎麼變快」，而是「當老師和學生不是同一種模型時，知識怎麼傳得過去」。\u003C\u002Fp>\u003Ch2>TIDE 到底怎麼運作\u003C\u002Fh2>\u003Cp>TIDE 由三個模組組成，而且每個模組都對準一種常見失真來源。第一個是 TIDAL。它會根據訓練進度和 diffusion timestep 來調整蒸餾強度。白話一點，就是老師在不同 timestep 的可靠度不一樣，學生不該用同一種力道去學所有階段。\u003C\u002Fp>\u003Cp>第二個模組是 CompDemo。它透過 complementary mask splitting 來補強老師的上下文。因為 diffusion 模型在高遮罩比例下做預測時，看到的上下文太少，老師本身也可能不穩。CompDemo 的想法，是用互補式的 mask 切分，讓老師能看到更完整的上下文，減少在重度 masking 下的失真。\u003C\u002Fp>\u003Cp>第三個模組是 \u003Ca href=\"\u002Fnews\u002Fred-hat-tank-os-openclaw-enterprise-safety-zh\">Re\u003C\u002Fa>verse CALM。摘要說它是一個 cross-tokenizer objective，核心是把 chunk-level likelihood matching 反過來處理，並帶來 bounded gradients 與 dual-end noise filtering。用比較白話的方式講，這像是在老師和學生 tokenizer 不一致時，提供一種更穩定的對齊方式，避免訓練過程因為 tokenization 差異而發散。\u003C\u002Fp>\u003Cp>三個模組合起來，分別處理三件事：\u003Ca href=\"\u002Fnews\u002Funtitled-zh\">什麼\u003C\u002Fa>時候該相信老師、怎麼讓老師的上下文更完整、以及怎麼跨 tokenizer 對齊輸出。這比「直接把老師輸出硬塞給學生」更貼近真實部署場景。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>摘要裡最明確的結果，是 TIDE 把 8B dense 和 16B MoE 的老師模型，蒸餾到一個 0.6B 學生模型，並且走了兩條 heterogeneous pipelines。作者表示，在八個 benchmark 上，蒸餾後的系統平均比 baseline 高 1.53 分。摘要沒有公開完整 benchmark 名稱與每項細節，所以這裡只能確認有八個測試與平均提升，不能補更多表格外資訊。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1777529459775-yfi9.png\" alt=\"TIDE 讓跨架構蒸餾可行\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>比較醒目的單點結果出現在 code generation。HumanEval 上，TIDE 的分數是 48.78，對照 AR baseline 的 32.3。這個落差不小，代表它不只是把平均分數往上推，也可能在開發者很在意的下游任務上真的有感。\u003C\u002Fp>\u003Cp>不過，從目前可見的資訊來看，還是要保守解讀。這份來源只有摘要，沒有完整 benchmark 細節、沒有訓練成本、沒有 wall-clock time，也沒有更廣泛的蒸餾基線比較。換句話說，我們知道它有效，但還不知道成本多高、穩定性如何、或是不是只在作者列出的 heterogeneous pipelines 才有這種效果。\u003C\u002Fp>\u003Cul>\u003Cli>老師模型：8B dense、16B MoE\u003C\u002Fli>\u003Cli>學生模型：0.6B\u003C\u002Fli>\u003Cli>八個 benchmark 平均提升：1.53 分\u003C\u002Fli>\u003Cli>HumanEval：48.78 對 32.3（AR baseline）\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>對開發者有什麼影響\u003C\u002Fh2>\u003Cp>如果你在做模型部署，這篇最有意思的地方，不是蒸餾本身，而是它承認了現實中的 heterogeneity。實務上，團隊常常沒辦法挑到「老師和學生完全同款架構」的組合。你可能想壓縮的是不同家族的模型，甚至是 tokenizer、attention pattern 都不一樣的系統。\u003C\u002Fp>\u003Cp>TIDE 提示了一個很重要的方向：跨架構壓縮，可能不能只看輸出對不對，還要把蒸餾目標做成 representation-aware。也就是說，當老師和學生對文字的內部表示不一致時，蒸餾方法本身就得跟著調整。這篇的三個模組，正好對應了這個思路：噪聲感知、masking 下的上下文補強、以及 tokenizer 感知的對齊。\u003C\u002Fp>\u003Cp>這對實作端的啟發很直接。若你在評估蒸餾方案，除了看最終分數，也要問：老師和學生是不是同一種 tokenizer？注意力結構差多少？在不同 timestep 下，老師的訊號是否一樣可靠？如果答案都是否定的，那就不能期待傳統蒸餾 objective 自動幫你解決。\u003C\u002Fp>\u003Cp>同時，限制也很明顯。這篇目前能驗證的內容，仍然只來自 arXiv 摘要。它告訴我們方法存在、三個模組是什麼、以及 headline result 是多少，但沒有提供足夠資訊去判斷泛化能力、超參數敏感度、或額外複雜度是否值得。\u003C\u002Fp>\u003Cp>即便如此，TIDE 仍然是一個重要訊號。diffusion LLM 的研究，正在從「能不能蒸餾」走向「當老師和學生根本不是同一種語言時，還能不能蒸餾」。這篇的答案是可以，但前提是蒸餾過程要懂噪聲、懂 masking，也要懂 tokenizer 差異。\u003C\u002Fp>\u003Cp>對台灣開發者來說，這類工作最值得注意的，不只是分數提升，而是它把蒸餾問題從單純壓縮，推進到跨架構協作。未來如果要把大型 diffusion LLM 落地到更小的部署環境，這種「讓學生學會跟老師不同步的表示方式」的設計，可能會比單純縮參數更關鍵。\u003C\u002Fp>\u003Ch2>這篇可以怎麼看\u003C\u002Fh2>\u003Cp>如果只用一句話總結，TIDE 是在解一個很多蒸餾方法沒正面碰的問題：老師和學生不一樣時，怎麼讓知識真的傳下去。它不是把既有蒸餾再微調一下，而是把 timestep、mask、tokenizer 這三個容易出問題的地方都納入設計。\u003C\u002Fp>\u003Cp>而就目前摘要能證實的範圍來看，它至少在 0.6B 學生上做出了可量化的提升，也在 HumanEval 這種開發者熟悉的任務上交出明顯差距。剩下的問題，就要等完整論文看更多 ablation、更多成本資訊，才能判斷這套方法到底是研究上漂亮，還是實務上也夠划算。\u003C\u002Fp>","TIDE 針對 diffusion LLM 的跨架構蒸餾，加入噪聲感知權重與 tokenizer 感知目標，讓 0.6B 學生模型更接近大模型表現。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2604.26951",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1777529462046-z8hb.png","research","zh","2061a3d3-9d89-4722-ac8b-e359941b4573",[17,18,19,20,21,22],"diffusion LLM","knowledge distillation","cross-architecture","tokenizer","MoE","HumanEval",0,"2026-04-30T06:10:31.730141+00:00","2026-04-30T06:10:31.112+00:00",{"tags":27,"relatedLang":36,"relatedPosts":40},[28,29,30,32,34],{"name":19,"slug":19},{"name":20,"slug":20},{"name":21,"slug":31},"moe",{"name":18,"slug":33},"knowledge-distillation",{"name":17,"slug":35},"diffusion-llm",{"id":15,"slug":37,"title":38,"language":39},"tide-cross-architecture-diffusion-llm-distillation-en","TIDE distills diffusion LLMs across architectures","en",[41,47,53,59,65,71],{"id":42,"slug":43,"title":44,"cover_image":45,"image_url":45,"created_at":46,"category":13},"33c9a55c-a8c0-4367-b742-f4567d1e98e3","mathematicians-warn-ai-could-distort-math-zh","數學界警告 AI 會扭曲證明標準","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780504386035-080l.png","2026-06-03T16:32:29.415063+00:00",{"id":48,"slug":49,"title":50,"cover_image":51,"image_url":51,"created_at":52,"category":13},"5c3cb90f-7efd-426f-8c09-32a303f82be9","humanoid-gpt-zero-shot-motion-tracking-zh","Humanoid-GPT：用 GPT 擴大動作追蹤","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780469319284-znpc.png","2026-06-03T06:47:34.463464+00:00",{"id":54,"slug":55,"title":56,"cover_image":57,"image_url":57,"created_at":58,"category":13},"e3a4b0f7-03b3-43c6-ae51-906b337c5c2f","ipt-vlms-hidden-space-reasoning-zh","IPT 讓 VLM 更會想像隱藏空間","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780468394735-1k40.png","2026-06-03T06:32:46.560029+00:00",{"id":60,"slug":61,"title":62,"cover_image":63,"image_url":63,"created_at":64,"category":13},"5fca9fe5-af66-47ce-85f0-0ffe1bee30b9","neuron-selectivity-changes-with-scale-zh","神經元選擇性會隨規模改變","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780467514422-7oss.png","2026-06-03T06:17:44.126547+00:00",{"id":66,"slug":67,"title":68,"cover_image":69,"image_url":69,"created_at":70,"category":13},"9f9c2a61-d058-4c62-bb88-106e683657f0","nasa-landsat-wild-disturbances-rising-zh","NASA Landsat：野火與風暴變多","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780448581102-owp0.png","2026-06-03T01:02:37.513233+00:00",{"id":72,"slug":73,"title":74,"cover_image":75,"image_url":75,"created_at":76,"category":13},"3479bdee-21fb-4fda-9572-9394caba01b0","adacodec-predictive-visual-code-video-mllms-zh","AdaCodec 用預測碼壓縮影片 token","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780381988591-z2sp.png","2026-06-02T06:32:28.249023+00:00",[78,83,88,93,98,103,108,113,118,123],{"id":79,"slug":80,"title":81,"created_at":82},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":84,"slug":85,"title":86,"created_at":87},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":89,"slug":90,"title":91,"created_at":92},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":94,"slug":95,"title":96,"created_at":97},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":114,"slug":115,"title":116,"created_at":117},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":124,"slug":125,"title":126,"created_at":127},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]