[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-rrfp-readiness-driven-pipeline-training-zh":3,"article-related-rrfp-readiness-driven-pipeline-training-zh":30,"series-research-eda7a80a-b234-4ada-90d1-a37b144251dc":83},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"eda7a80a-b234-4ada-90d1-a37b144251dc","rrfp-readiness-driven-pipeline-training-zh","RRFP 讓管線訓練跟著就緒跑","\u003Cp data-speakable=\"summary\">RRFP 把管線平行訓練改成先跑已就緒工作，減少 runtime 變動造成的閒置空泡。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：arXiv 摘要未明確標註\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：多模態工作負載最高 2.77× 加速\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：以就緒度優先派工\u003C\u002Fli>\u003C\u002Ful>\u003Cp>管線平行訓練一直是大型模型擴展的重要手段，但它有一個老問題：排程寫得再漂亮，runtime 一旦有變動，整條管線還是可能卡住。這篇論文要解的，就是這種「紙上順、實際慢」的落差。\u003C\u002Fp>\u003Cp>RRFP，全名是 Runtime-Readiness-First Pipeline。它的核心不是重新發明訓練流程，而是改變 runtime 看待排程的方式。論文主張，當計算與通訊在執行時出現變動時，固定順序會讓 stage 等下一個指定工作，明明有別的工作已經能跑，卻還是閒著。\u003C\u002Fp>\u003Cp>對開發者來說，這不是抽象的系統細節。它會直接\u003Ca href=\"\u002Fnews\u002Fwembanyama-stat-page-turns-into-recap-zh\">變成\u003C\u002Fa> idle bubbles、\u003Ca href=\"\u002Ftag\u002Fgpu\">GPU\u003C\u002Fa> 利用率下降，還有整體訓練時間拉長。RRFP 想做的，就是把這些浪費吃回來。\u003C\u002Fp>\u003Ch2>這篇在修哪個痛點\u003C\u002Fh2>\u003Cp>論文指出，現有 pipeline 系統通常假設：前面規劃好的順序，就是 runtime 應該照做的順序。這個假設只有在任務就緒狀態和排程順序完全一致時才成立。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779172442474-n21q.png\" alt=\"RRFP 讓管線訓練跟著就緒跑\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>但實際訓練不是這樣。計算時間會飄，通訊也會飄。當下一個排程項目還沒準備好，stage 就只能等；可是一旁如果已經有別的任務 ready，固定順序也不會自動去接它。於是，管線看起來有條有理，實際上卻在空轉。\u003C\u002Fp>\u003Cp>RRFP 的出發點，就是把這個錯位拆掉。它不是讓 schedule 決定一切，而是讓「現在誰已經 ready」來決定先做誰。\u003C\u002Fp>\u003Ch2>RRFP 怎麼運作\u003C\u002Fh2>\u003Cp>這篇論文最重要的設計，是把 schedule 從「硬性命令」改成「提示」。也就是說，排程順序還在，但不再是 runtime 必須死守的唯一順序。runtime 會先看目前有哪些工作已經可以執行，再用 hint order 去排序這些 ready 的工作。\u003C\u002Fp>\u003Cp>這個改法看起來只是換了一個優先級，實際上卻改了控制模型。stage 不必因為下一個指定項目還沒好就停住，只要有其他可執行任務，就能先把硬體用起來。論文要解決的，是讓 pipeline 跟著「可做\u003Ca href=\"\u002Fnews\u002Fwhy-wembanyama-game-3-should-change-spurs-expectations-zh\">什麼\u003C\u002Fa>」走，而不是只跟著「原本打算先做什麼」走。\u003C\u002Fp>\u003Cp>為了支撐這種執行方式，RRFP 結合了三個機制：message-driven asynchronous communication、lightweight tensor-parallel coordination，以及 ready-set arbitration。摘要沒有把實作細節全部攤開，但方向很清楚：通訊要能異步、協調要夠輕、派工要能快速在 ready 集合裡做選擇。\u003C\u002Fp>\u003Cp>論文把 RRFP 做在 Megatron-based training framework 上。這代表它不是純理論排程，而是放進實際訓練框架裡驗證的 runtime 系統。\u003C\u002Fp>\u003Cp>另一個值得注意的點，是它並沒有把正確性當成可犧牲項目。摘要明確說，RRFP 仍然維持 training correctness。也就是說，它追求的是更聰明的執行順序，不是用近似結果換速度。\u003C\u002Fp>\u003Ch2>它實際證明了什麼\u003C\u002Fh2>\u003Cp>這篇摘要有提供數字，而且數字不小。評估涵蓋 language-only 和 multimodal workloads，規模最高到 128 GPUs。這很重要，因為 pipeline 的效率問題通常會在規模拉大後更明顯，小小的等待時間也會被放大成很可觀的浪費。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779172446424-cpbl.png\" alt=\"RRFP 讓管線訓練跟著就緒跑\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>結果方面，論文提到：在使用 BFW hint 的情況下，RRFP 在 language-only workloads 上最高可達 1.77× speedup，在 multimodal workloads 上最高可達 2.77× speedup。這種加速是來自 runtime 行為調整，不是改模型架構，也不是改訓練目標。\u003C\u002Fp>\u003Cp>論文也做了跨框架比較。摘要說，RRFP 搭配預設 BF hint，最多可以比「外部系統中最快的可用版本」快 1.84×，而且仍然保持訓練正確性。這句話的\u003Ca href=\"\u002Fnews\u002Fspurs-vs-timberwolves-game-5-takeaways-zh-tw-zh\">重點\u003C\u002Fa>是，它不是單純比誰更激進，而是把速度和 correctness 一起守住。\u003C\u002Fp>\u003Cp>但摘要也有明顯限制。它沒有公開完整的 benchmark 細節，沒有列出絕對 throughput、step time、記憶體成本，也沒有提供各個元件的 ablation 數字。換句話說，光看摘要可以知道方向和 headline 成果，但還不能完整判斷代價與 trade-off。\u003C\u002Fp>\u003Cp>另外，摘要也沒有把 BFW、BF 這些 hint 的差異講得很細。你可以知道 hint 會影響結果，但還看不出它們在不同工作負載下的敏感度有多高。\u003C\u002Fp>\u003Ch2>對開發者有什麼影響\u003C\u002Fh2>\u003Cp>如果你在做大型模型訓練，這篇論文傳達的訊號很直接：pipeline 排程不能只看理論順序，還要看 runtime 的就緒狀態。當工作負載有通訊延遲、計算波動，或兩者一起來時，固定排程很容易把可用算力浪費掉。\u003C\u002Fp>\u003Cp>這對混合工作負載特別有意義。論文把 language-only 和 multimodal 都納進來，表示它關注的不是單一模型類型，而是更廣義的訓練 runtime 問題。對系統工程師來說，這種 readiness-driven 的設計，可能比再微調一次靜態排程更有用。\u003C\u002Fp>\u003Cp>從框架設計角度看，RRFP 也提供了一個很實用的模式：把 schedule intent 和 dispatch order 拆開。前者保留規劃意圖，後者交給 runtime 根據 ready 狀態決定。這樣做的好處，是 runtime 能更靈活，但又不必變成一個很重的中央協調器。\u003C\u002Fp>\u003Cp>論文提到的 message-driven async communication 和 ready-set arbitration，就屬於這種低開銷的支撐機制。它們的目的不是增加複雜度，而是讓 runtime 有能力在不打亂正確性的前提下，把空等時間轉成實際工作。\u003C\u002Fp>\u003Ch2>限制與還沒回答的問題\u003C\u002Fh2>\u003Cp>摘要雖然給了漂亮的 speedup，但還留下不少空白。它沒有說 RRFP 在一般情況下會多多少開銷，也沒有說 hint order 的品質會不會影響結果。這些都會決定它能不能從研究原型走向更廣泛的系統實作。\u003C\u002Fp>\u003Cp>另外，摘要沒有說明收益到底更依賴 workload 類型、GPU 數量，還是 pipeline 形狀。雖然它同時測了 language-only 和 multimodal，也測到 128 GPUs，但這還不足以證明它對所有訓練堆疊都同樣有效。\u003C\u002Fp>\u003Cp>還有一個實務上的問題是：如果 readiness 資訊本身延遲或不夠準，RRFP 的優勢會不會被吃掉？摘要沒有回答。這代表它的效益很可能跟 runtime 觀測品質綁在一起。\u003C\u002Fp>\u003Cp>即便如此，方向仍然很清楚。隨著訓練工作負載越來越不穩定，死守固定 pipeline 順序會越來越像一種負擔。RRFP 想證明的是：只要 runtime 能根據就緒狀態動態派工，就有機會在不犧牲正確性的前提下，把硬體利用率拉回來。\u003C\u002Fp>\u003Ch2>結語\u003C\u002Fh2>\u003Cp>RRFP 把 pipeline-parallel training 的中心從「先排好」移到「先看誰 ready」。從摘要公開的數字來看，這不只是小修小補，而是能在多模態與大規模 GPU 環境下帶來明顯加速的 runtime 改造。\u003C\u002Fp>\u003Cp>對正在做大模型訓練的團隊來說，這篇論文的價值在於提醒一件事：訓練系統的競爭力，越來越不只在模型本身，也在 runtime 能不能跟上現實世界的變動。\u003C\u002Fp>","RRFP 把管線平行訓練改成先跑已就緒工作，減少 runtime 變動造成的閒置空泡，最高在多模態工作負載上快 2.77 倍。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.18750",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779172442474-n21q.png","research","zh","3440bae8-d711-472c-8861-ef8ea63d39e8",[17,18,19,20,21],"pipeline parallelism","runtime scheduling","readiness-driven dispatch","Megatron","multimodal training",[23,24,25],"把固定排程改成以就緒度優先，能減少 pipeline 閒置空泡。","摘要公開的結果顯示，最高可達 1.77× 到 2.77× 加速。","它維持訓練正確性，但摘要未公開完整 benchmark 與開銷細節。",5,"2026-05-19T06:33:31.287772+00:00","2026-05-19T06:33:31.266+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":31,"relatedLang":42,"relatedPosts":46},[32,34,36,38,40],{"name":20,"slug":33},"megatron",{"name":18,"slug":35},"runtime-scheduling",{"name":19,"slug":37},"readiness-driven-dispatch",{"name":21,"slug":39},"multimodal-training",{"name":17,"slug":41},"pipeline-parallelism",{"id":15,"slug":43,"title":44,"language":45},"rrfp-readiness-driven-pipeline-training-en","RRFP Makes Pipeline Training Follow Readiness","en",[47,53,59,65,71,77],{"id":48,"slug":49,"title":50,"cover_image":51,"image_url":51,"created_at":52,"category":13},"33c9a55c-a8c0-4367-b742-f4567d1e98e3","mathematicians-warn-ai-could-distort-math-zh","數學界警告 AI 會扭曲證明標準","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780504386035-080l.png","2026-06-03T16:32:29.415063+00:00",{"id":54,"slug":55,"title":56,"cover_image":57,"image_url":57,"created_at":58,"category":13},"5c3cb90f-7efd-426f-8c09-32a303f82be9","humanoid-gpt-zero-shot-motion-tracking-zh","Humanoid-GPT：用 GPT 擴大動作追蹤","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780469319284-znpc.png","2026-06-03T06:47:34.463464+00:00",{"id":60,"slug":61,"title":62,"cover_image":63,"image_url":63,"created_at":64,"category":13},"e3a4b0f7-03b3-43c6-ae51-906b337c5c2f","ipt-vlms-hidden-space-reasoning-zh","IPT 讓 VLM 更會想像隱藏空間","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780468394735-1k40.png","2026-06-03T06:32:46.560029+00:00",{"id":66,"slug":67,"title":68,"cover_image":69,"image_url":69,"created_at":70,"category":13},"5fca9fe5-af66-47ce-85f0-0ffe1bee30b9","neuron-selectivity-changes-with-scale-zh","神經元選擇性會隨規模改變","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780467514422-7oss.png","2026-06-03T06:17:44.126547+00:00",{"id":72,"slug":73,"title":74,"cover_image":75,"image_url":75,"created_at":76,"category":13},"9f9c2a61-d058-4c62-bb88-106e683657f0","nasa-landsat-wild-disturbances-rising-zh","NASA Landsat：野火與風暴變多","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780448581102-owp0.png","2026-06-03T01:02:37.513233+00:00",{"id":78,"slug":79,"title":80,"cover_image":81,"image_url":81,"created_at":82,"category":13},"3479bdee-21fb-4fda-9572-9394caba01b0","adacodec-predictive-visual-code-video-mllms-zh","AdaCodec 用預測碼壓縮影片 token","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780381988591-z2sp.png","2026-06-02T06:32:28.249023+00:00",[84,89,94,99,104,109,114,119,124,129],{"id":85,"slug":86,"title":87,"created_at":88},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":90,"slug":91,"title":92,"created_at":93},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":95,"slug":96,"title":97,"created_at":98},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":100,"slug":101,"title":102,"created_at":103},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":105,"slug":106,"title":107,"created_at":108},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":110,"slug":111,"title":112,"created_at":113},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":115,"slug":116,"title":117,"created_at":118},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":120,"slug":121,"title":122,"created_at":123},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":125,"slug":126,"title":127,"created_at":128},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":130,"slug":131,"title":132,"created_at":133},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]