[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-which-lora-multilingual-instruction-tuning-zh":3,"article-related-which-lora-multilingual-instruction-tuning-zh":31,"series-research-3a28dde7-5577-4ac9-9249-8dc0760399ae":84},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":23,"views":27,"created_at":28,"published_at":29,"topic_cluster_id":30},"3a28dde7-5577-4ac9-9249-8dc0760399ae","which-lora-multilingual-instruction-tuning-zh","多語指令微調，LoRA 夠用了","\u003Cp data-speakable=\"summary\">Massey University 的研究顯示，在多語指令微調中，基本版 LoRA 已能和較新的變體維持相近表現。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：Massey University\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：0.26% 可訓練參數\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：比較多種 LoRA 變體\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這篇論文在回答一個很實際的問題：當你要做多語言指令微調時，真的需要追新一代 LoRA 變體嗎？作者把這件事拿到同一個場景裡檢驗，直接比較基本版 LoRA、DoRA、VeRA、AdaLoRA 和 PiSSA，看看誰比較適合處理跨語言轉移與知識保留的拉扯。\u003C\u002Fp>\u003Cp>對開發者來說，這不是小問題。PEFT 方法選錯，會影響訓練流程、參數預算、調參成本，還有你要花多少時間確認模型到底有沒有真的變好。這篇研究的重點不是證明 LoRA 變體沒用，而是提醒大家：在多語指令微調這個場景裡，方法名氣不等於實際收益。\u003C\u002Fp>\u003Ch2>這篇想解的痛點\u003C\u002Fh2>\u003Cp>LoRA 之所以受歡迎，是因為它只訓練一小部分參數，就能微調大型語言模型，底層模型本體則保持凍結。這讓它很適合想省算力、又想快速適配新任務的\u003Ca href=\"\u002Fnews\u002Fclarity-act-floor-vote-prep-crypto-teams-zh\">團隊\u003C\u002Fa>。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781190188814-jtvk.png\" alt=\"多語指令微調，LoRA 夠用了\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>但 LoRA 也衍生出一串變體。每一個都宣稱能更有效率，或更聰明地分配參數。問題是，這些變體在多語指令微調裡，真的比原版 LoRA 好嗎？這篇論文就是要把這個直覺拆開看。\u003C\u002Fp>\u003Cp>作者特別把焦點放在多語言情境，因為這裡同時有兩個壓力：一方面要把英文知識轉移到目標語言，另一方面又不能讓模型忘掉原本會的東西。對低資源語言來說，這種平衡更敏感，因為可用資料本來就少，每個設計選擇都很吃重。\u003C\u002Fp>\u003Ch2>方法怎麼做\u003C\u002Fh2>\u003Cp>研究不是只講概念，而是把基本版 LoRA 與四個變體放在同一套多語指令微調流程裡比較。這四個變體分別是 DoRA、VeRA、AdaLoRA 和 PiSSA。論文也簡單說明了它們的設計差異：DoRA 把預訓練權重拆成 magnitude 和 direction 來微調；VeRA 用凍結的隨機矩陣搭配可訓練的 scaling vectors；AdaLoRA 會依重要性重新分配參數預算；PiSSA 則用 SVD，訓練主成分。\u003C\u002Fp>\u003Cp>作者不是把這些方法單獨拿來看，而是把它們塞進同一個多語指令微調設定。訓練資料混合英文與目標語言，評估也同時看兩邊。目標語言包含 Urdu、Swahili、Hindi、Bengali 和 Telugu。\u003C\u002Fp>\u003Cp>他們還測了不同的目標語言比例：0%、1%、10% 與 50%。這樣可以看出，少量目標語言資料到底有沒有幫助跨語轉移，也能觀察不同 adapter 是否更會吃到這些資料紅利。\u003C\u002Fp>\u003Cp>為了讓比較更公平，作者在超參數調整後，還做了控制組設定：rank 固定為 8，而且 adapter 套到 transformer 的所有 linear layers。DoRA 在 tuning 時需要不同的最佳設定，所以論文另外做了 DoRA* 版本，讓它在參數預算上更接近其他方法。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>主結論很直接：更複雜的 LoRA 變體，沒有在多語指令微調裡展現出顯著優勢。換句話說，額外的架構機制，沒有穩定換來更好的跨語轉移，也沒有穩定換來更好的知識保留。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781190186387-2vbc.png\" alt=\"多語指令微調，LoRA 夠用了\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這篇研究也確認，多語指令微調本身是有幫助的。即使只加入少量目標語言資料，也能改善跨語轉移。但這不代表你一定要換成更花俏的 adapter 才能得到這些收益。\u003C\u002Fp>\u003Cp>有一個具體數字值得注意。控制組的共同設定大約只有 0.26% 可訓練參數；DoRA 的調整後設定則到 0.36%。VeRA 在表格裡的參數量更小，但作者也說，在現有硬體限制下，無法做出更高 rank 的公平比較。\u003C\u002Fp>\u003Cp>結果表顯示，不同 LoRA 方法之間的差距常常很小，而且會隨語言與資料比例上下波動。很多情況下，基本版 LoRA 不是領先，就是跟變體非常接近。論文沒有丟出一個很吸睛的單一總分，像是「整體提升 X 點」這種說法；它強調的是：沒有哪個變體能穩定、重複地贏過其他方法。\u003C\u002Fp>\u003Cp>作者還做了隱藏層分析。結果顯示，不同 LoRA 技術微調後，語言表示在 layer-wise 的層級上仍然大致相似。這很關鍵，因為它暗示：變體確實改了 adapter 結構，但沒有明顯改寫模型內部的語言表示，因此也就不容易解釋出更好的多語行為。\u003C\u002Fp>\u003Ch2>為什麼這個分析重要\u003C\u002Fh2>\u003Cp>如果兩種微調方法最後都差不多，開發者最想知道的通常不是「誰贏了」，而是「它們到底有沒有學到不同的東西」。這時候，hidden-state analysis 就很有價值。它能幫你看出模型內部表示是不是有真的被改變。\u003C\u002Fp>\u003Cp>這篇論文的答案偏向後者：LoRA 變體沒有帶來明顯的語言表示差異。這也支持作者的整體判斷，也\u003Ca href=\"\u002Fnews\u002Fdefi-runs-finance-on-public-blockchains-zh\">就是在\u003C\u002Fa>這個設定下，架構上的新意不一定會轉成更好的跨語適應。\u003C\u002Fp>\u003Cp>作者另外提到一個和 LoRA-based pre-training 不同的實作結論：對 instruction tuning 來說，LoRA 應該套用到所有 layers，而不是只放在最後幾層。這是很直接的工程訊號，對要做多語 adapter 的團隊很實用。\u003C\u002Fp>\u003Ch2>對開發者的影響\u003C\u002Fh2>\u003Cp>如果你正在選 PEFT 方法來做多語指令微調，這篇論文的態度很保守，但很務實：先用基本版 LoRA，不一定要急著上更複雜的變體。尤其當你的目標是平衡跨語轉移與知識保留，而不是追求某個可能很小、而且不穩定的提升時，簡單方法可能就夠了。\u003C\u002Fp>\u003Cp>這不代表那些變體毫無價值。它代表的是，當變體會增加實作複雜度、調參負擔，甚至硬體限制時，你應該先問自己：它真的能給出清楚回報嗎？這篇研究的答案是，在這個場景裡，證據還不夠強。\u003C\u002Fp>\u003Cp>它也提醒大家，不同訓練情境的結論不能直接互抄。英文單語、非 instruction tuning、或其他任務下的 LoRA 結果，不一定能直接搬到多語指令微調。作者也明講，這篇工作是在補多語 instruction tuning 的空白，尤其是低資源語言的情境。\u003C\u002Fp>\u003Cp>限制同樣要看清楚。這篇只比較了部分 LoRA 變體，不是把所有文獻都掃一遍。它聚焦的是特定的多語指令微調設定，所以不能被解讀成「所有 LoRA 變體到哪都一樣好」。而且摘要與原始說明也沒有提供一個可直接外推的統一 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 數字。\u003C\u002Fp>\u003Cp>但實務訊號已經很清楚：如果你在建多語 fine-tuning 流程，先從簡單的 adapter 開始，仔細調資料混合比例，再用自己的工作負載驗證是否真的需要更複雜的變體，會是更穩的路線。\u003C\u002Fp>\u003Ch2>結論\u003C\u002Fh2>\u003Cp>這篇論文的意思很明白：在多語指令微調裡，新不一定比較好，簡單版 LoRA 可能就已經夠用。對要\u003Ca href=\"\u002Fnews\u002Finstitutional-defi-middle-layer-compliance-zh\">上線\u003C\u002Fa>的團隊來說，這代表可以少花一些時間在 adapter 追新上，把精力放回資料品質、語言覆蓋與評估設計。\u003C\u002Fp>\u003Cul>\u003Cli>基本版 LoRA 在多語指令微調中，表現可與 DoRA、VeRA、AdaLoRA、PiSSA 相近。\u003C\u002Fli>\u003Cli>layer-wise 隱藏表示分析沒有顯示明顯的語言表示差異。\u003C\u002Fli>\u003Cli>作者建議 instruction tuning 時，LoRA 應套用到所有 layers。\u003C\u002Fli>\u003C\u002Ful>","Massey University 比較多種 LoRA 變體後發現，在多語指令微調裡，基本版 LoRA 就能跟較新的方法打平。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fhtml\u002F2606.10428",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781190188814-jtvk.png","research","zh","63d5bb37-55ae-4624-9e62-a7c8d8f3bc90",[17,18,19,20,21,22],"LoRA","PEFT","multilingual instruction tuning","DoRA","AdaLoRA","PiSSA",[24,25,26],"多語指令微調裡，基本版 LoRA 已能和較新的變體打平。","少量目標語言資料有助於跨語轉移，但不代表需要更複雜的 adapter。","作者建議 instruction tuning 時，把 LoRA 套用到所有 layers。",2,"2026-06-11T15:02:33.783547+00:00","2026-06-11T15:02:33.761+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":32,"relatedLang":43,"relatedPosts":47},[33,35,37,39,41],{"name":21,"slug":34},"adalora",{"name":17,"slug":36},"lora",{"name":19,"slug":38},"multilingual-instruction-tuning",{"name":18,"slug":40},"peft",{"name":20,"slug":42},"dora",{"id":15,"slug":44,"title":45,"language":46},"which-lora-multilingual-instruction-tuning-en","Which LoRA? Multilingual tuning says simpler wins","en",[48,54,60,66,72,78],{"id":49,"slug":50,"title":51,"cover_image":52,"image_url":52,"created_at":53,"category":13},"e08b8946-29a0-486a-b2c1-b23faf16b441","taxonomy-rwa-tokenization-blockchain-infrastructure-zh","RWA 代幣化的 23 維分類法","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781259482592-9fiv.png","2026-06-12T10:17:30.417901+00:00",{"id":55,"slug":56,"title":57,"cover_image":58,"image_url":58,"created_at":59,"category":13},"34681ebb-0d9d-4988-822a-45b6e5ad46d6","2026-llm-paper-lists-better-than-feeds-zh","2026 年的 LLM 論文清單，比資訊流更適合做研究","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781258570660-0l2n.png","2026-06-12T10:02:16.438561+00:00",{"id":61,"slug":62,"title":63,"cover_image":64,"image_url":64,"created_at":65,"category":13},"8a06c20a-c2d6-4cb0-a35c-69eab7f7f89a","anthropic-ai-building-ai-recursive-self-improvement-zh","Anthropic 自己的數據已經證明：AI 正在幫 AI 進步","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781257685705-1m6f.png","2026-06-12T09:47:24.801004+00:00",{"id":67,"slug":68,"title":69,"cover_image":70,"image_url":70,"created_at":71,"category":13},"29143a1b-a610-4674-96a5-e3b1695350bd","project-glasswing-mythos-bug-chaining-zh","Project Glasswing 揭露 Mythos 會串漏洞","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781254982476-voas.png","2026-06-12T09:02:32.008908+00:00",{"id":73,"slug":74,"title":75,"cover_image":76,"image_url":76,"created_at":77,"category":13},"ba442703-edfa-4353-b256-db502d94a99e","mana-articulated-tool-manipulation-animation-zh","Mana把工具操作改寫成動畫","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781246882933-bvjm.png","2026-06-12T06:47:29.612828+00:00",{"id":79,"slug":80,"title":81,"cover_image":82,"image_url":82,"created_at":83,"category":13},"6911e614-4894-4f1f-a0ad-816e323793ef","retrieval-augmented-reinforcement-fine-tuning-analogy-zh","RA-RFT 讓模型學會類比推理","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781245983485-miul.png","2026-06-12T06:32:27.726554+00:00",[85,90,95,100,105,110,115,120,125,130],{"id":86,"slug":87,"title":88,"created_at":89},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":91,"slug":92,"title":93,"created_at":94},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":96,"slug":97,"title":98,"created_at":99},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":101,"slug":102,"title":103,"created_at":104},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":106,"slug":107,"title":108,"created_at":109},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":111,"slug":112,"title":113,"created_at":114},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":116,"slug":117,"title":118,"created_at":119},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":121,"slug":122,"title":123,"created_at":124},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":126,"slug":127,"title":128,"created_at":129},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":131,"slug":132,"title":133,"created_at":134},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]