[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-levo-2-full-length-song-generation-zh":3,"article-related-levo-2-full-length-song-generation-zh":30,"series-research-c8de2902-230f-4a9f-a6c2-75bb234ca422":73},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"c8de2902-230f-4a9f-a6c2-75bb234ca422","levo-2-full-length-song-generation-zh","LeVo 2 用分層建模做完整歌曲生成","\u003Cp data-speakable=\"summary\">LeVo 2 透過分層表示與漸進式後\u003Ca href=\"\u002Fnews\u002Fvlk-synthetic-humanoid-loco-manipulation-zh\">訓練\u003C\u002Fa>，改善完整歌曲生成的\u003Ca href=\"\u002Fnews\u002Fstablecoin-payments-faster-but-fees-lag-zh\">穩定\u003C\u002Fa>性、可控性與音樂性。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：arXiv 摘要未明確標註\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：六個主觀維度\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：混合 token 規劃加平行細化\u003C\u002Fli>\u003C\u002Ful>\u003Cp>完整歌曲生成一直不好做。模型不只要生出像樣的旋律，還要顧到長時間的結構一致性、歌詞對齊、主唱與伴奏分離，以及最後輸出的音訊品質。這篇論文把 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.30642\">LeVo 2: Stable and Melodious Song Generation via Hierarchical Representation Modeling and Progressive Post-Training\u003C\u002Fa> 放在這個問題上，主張用分層表示與漸進式後訓練，來減少「全局規劃」和「局部細節」之間的拉扯。\u003C\u002Fp>\u003Cp>對開發者來說，這篇最有意思的地方，不是它能不能唱，而是它怎麼拆解任務。作者沒有把所有責任丟給單一表示，而是把歌曲生成切成幾個階段：先做語意規劃，再做 track 細化，最後重建波形。這種設計很像工程上的模組化思維，重點是讓不同層次各做各的事。\u003C\u002Fp>\u003Ch2>它想解的痛點是什麼\u003C\u002Fh2>\u003Cp>摘要直接點出現有語言模型式歌曲系統的一個結構性矛盾。混合 \u003Ca href=\"\u002Ftag\u002Ftoken\">token\u003C\u002Fa> 建模有助於讓人聲和樂器協調，但容易把屬於不同 track 的細節弄糊。雙軌預測雖然能保留較好的聲學細節，卻會把序列拉長，也可能削弱全局規劃能力。簡單講，現有系統常常是在「結構」和「細節」之間二選一。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782800283385-laim.png\" alt=\"LeVo 2 用分層建模做完整歌曲生成\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這個問題之所以麻煩，是因為完整歌曲不是短音檔。模型要在更長的時間尺度上保持穩定，還要讓歌詞和音樂對得上，不能生成到一半就開始漂移，最後聽起來像拼接出來的片段。論文把 LeVo 2 定位成一個 hybrid \u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa>-diffusion framework，就是想把這些約束一起處理，而不是把它們塞進同一個單體預測目標裡。\u003C\u002Fp>\u003Cp>摘要沒有公開完整 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 細節，所以目前能確定的是方法論方向，而不是某個單一分數。文中提到系統有做專家聆聽測試和客觀評估，但沒有在摘要裡列出具體指標數字。\u003C\u002Fp>\u003Ch2>方法怎麼運作\u003C\u002Fh2>\u003Cp>LeVo 2 的核心是 hierarchical modeling。第一段由語言模型 LeLM 負責，先預測混合 token，做出歌曲的語意規劃。這一步像是先畫出整首歌的藍圖，先決定大方向，再往下做細節。\u003C\u002Fp>\u003Cp>接著系統不是直接收尾，而是再平行預測人聲與伴奏 token，讓每個 track 都能做更具體的修正。這代表模型不是只靠一條單一路徑往前推，而是把全局與局部拆開處理。對生成式音訊來說，這種分工有助於同時保住整體結構和局部聲學細節。\u003C\u002Fp>\u003Cp>最後，系統用 diffusion-based Music Codec 把 token 重建成完整波形。也就是說，流程不是「生 token 然後直接播放」，而是先規劃、再細化、最後重建音訊訊號。作者想保的是兩件事：高層次的音樂結構，以及低層次的聲學品質。\u003C\u002Fp>\u003Cp>這篇延伸版工作還多了一個很關鍵的訓練安排：aesthetics-guided training schedule。預訓練階段會用自動化的 music aesthetic evaluation framework，替大規模資料分配 musicality-tier 條件。白話一點，就是先把資料按音樂性分層，讓模型先吃到帶有音樂性先驗的資料，再進入偏好對齊。\u003C\u002Fp>\u003Cp>這種做法很像先建立基礎規則，再開始做精修。作者不是一開始就直接衝 preference optimization，而是先讓模型從有層級標註的資料中學習，再做 progressive post-training。摘要列出的三個階段是 supervised fine-tuning、large-scale offline DPO，以及 closed-loop semi-online DPO。作者的說法是，這三步分別改善生成品質、可控性和音樂性。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>摘要的結果描述是：expert listening tests 和 objective evaluations 顯示，LeVo 2 在六個主觀維度上都優於 \u003Ca href=\"\u002Fnews\u002Fopenai-jalapeno-threatens-nvidia-realistically-zh\">open\u003C\u002Fa>-source baselines。它也說系統在幾個聆聽指標上接近領先的商業系統。這代表作者想傳達的是，模型不只在技術上有拆解能力，感知品質也有提升。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782800277060-wbj8.png\" alt=\"LeVo 2 用分層建模做完整歌曲生成\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>但這裡要先踩煞車。摘要沒有提供實際分數、baseline 名稱，也沒有列出那些聆聽指標到底是什麼。換句話說，你可以從摘要知道它「看起來更好」，卻還不能只靠這段文字判斷提升幅度有多大。對實作團隊來說，這比較像一篇方法與訓練策略都很完整的研究，而不是摘要裡已經把 benchmark 全部攤開的報告。\u003C\u002Fp>\u003Cp>摘要還提到有做 ablation，而且這些 ablation 驗證了訓練策略、aesthetics guidance、scale，以及 hierarchical architecture 的效果。這表示作者不是只靠單一技巧撐結果，而是想證明整個系統的不同部件都有貢獻。\u003C\u002Fp>\u003Cp>如果把這件事翻成工程語言，就是：不是某個神奇 token 一次解決所有問題，而是表示法、訓練流程、偏好對齊和重建器一起協作，才把完整歌曲的品質拉上來。\u003C\u002Fp>\u003Ch2>為什麼這個訓練流程重要\u003C\u002Fh2>\u003Cp>這篇最有辨識度的地方，可能是 progressive post-training。摘要的論點很明確：把 musicality learning、controllability alignment 和 acoustic refinement 分開處理，可以減少優化衝突。白話一點，就是不要逼同一個階段同時扛所有目標，因為這些目標彼此會打架。\u003C\u002Fp>\u003Cp>這也是為什麼作者把 offline DPO 和 semi-online DPO 當成分段的偏好對齊工具，而不是一次性的修補手段。摘要的 framing 是，靜態的 offline preference pairs 有侷限，尤其在歌曲生成這種多維度任務上更明顯。加上 closed-loop semi-online 之後，模型可以在初始 supervised 階段後繼續修正行為。\u003C\u002Fp>\u003Cp>另外還有一個 modular extension step，會訓練 Track-Specific LM 來做 acoustic refinement，同時保留已對齊的 semantic planner。這點很值得注意，因為它反映出作者想維持全局規劃的穩定性，同時改善局部音質。對做生成式系統的人來說，這是很典型的工程問題：後面的微調不要把前面學到的能力洗掉。\u003C\u002Fp>\u003Ch2>開發者可以怎麼看\u003C\u002Fh2>\u003Cp>如果你在做生成式音訊，LeVo 2 的價值在於它把歌曲生成視為一個分層系統問題。某個階段負責規劃，某個階段負責 track 細節，某個階段負責波形重建。這種拆法理論上會比單一端到端堆疊更容易除錯、調參，也更容易擴充。\u003C\u002Fp>\u003Cp>這篇也提醒一件事：在多模態生成裡，訓練策略的重要性已經不亞於模型架構。摘要裡真正被強調的，不只是 LeLM 或 diffusion codec，而是資料條件化、偏好對齊、分階段後訓練這整套流程。對創作型生成任務來說，訓練管線本身可能就是產品效果的一半。\u003C\u002Fp>\u003Cp>但限制也很清楚。摘要沒有交代資料集大小、benchmark 名稱、聆聽測試流程，也沒有說拿來比較的商業系統是哪些。它也沒有告訴我們這條 hybrid LLM-diffusion pipeline 的訓練成本或推理成本。對任何想重現或導入的人來說，這些都是一定會想先知道的實務問題。\u003C\u002Fp>\u003Cp>所以最短的結論是：LeVo 2 想靠分層規劃、track 細化和波形重建，把完整歌曲生成做得更穩，再用漸進式後訓練把品質、可控性和音樂性一起拉高。摘要給的訊號是正面的，但細節還不足以讓人完整審核數字。\u003C\u002Fp>\u003Ch2>這篇研究的實際影響\u003C\u002Fh2>\u003Cp>如果這個方向成立，後續做音樂生成的團隊可能會更常把任務拆成多階段，而不是硬把所有目標塞進同一個 token 空間。這對系統設計很重要，因為它讓「全局一致」和「局部細節」不再是互相排斥的選項，而是可以在不同模組裡分別優化的目標。\u003C\u002Fp>\u003Cp>另一個影響是，偏好對齊不一定要只做一次。這篇把 offline DPO、semi-online DPO 和 supervised fine-tuning 串成一條流程，等於在說：對於像歌曲這種高維度創作任務，訓練順序本身就是模型能力的一部分。\u003C\u002Fp>\u003Cp>總之，LeVo 2 不是只在講「生成得像不像」，而是在處理「怎麼讓一首完整歌在長時間尺度上保持穩定」。對研究者來說，這是架構與訓練策略的組合題；對開發者來說，這是如何把生成系統拆得更可控的實戰題。\u003C\u002Fp>\u003Cul>\u003Cli>分層建模把全局規劃和 track 細化拆開，降低互相干擾。\u003C\u002Fli>\u003Cli>漸進式後訓練把 SFT、offline DPO、semi-online DPO 串成流程。\u003C\u002Fli>\u003Cli>摘要有正向結果，但沒有公開完整 benchmark 數字與測試細節。\u003C\u002Fli>\u003C\u002Ful>","LeVo 2 透過分層表示與漸進式後訓練，改善完整歌曲生成的穩定性、可控性與音樂性。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.30642",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782800283385-laim.png","research","zh","d1c3c523-563b-4044-8071-3d9eddbe1fb5",[17,18,19,20,21],"歌曲生成","分層建模","DPO","擴散模型","音訊生成",[23,24,25],"LeVo 2 用分層流程把歌曲生成拆成規劃、細化與重建。","漸進式後訓練是這篇的關鍵，重點在分段對齊不同目標。","摘要宣稱效果優於開源基線，但沒有公開完整 benchmark 數字。",0,"2026-06-30T06:17:32.014853+00:00","2026-06-30T06:17:32.006+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":31,"relatedLang":32,"relatedPosts":36},[],{"id":15,"slug":33,"title":34,"language":35},"levo-2-full-length-song-generation-en","LeVo 2 tackles full-length song generation","en",[37,43,49,55,61,67],{"id":38,"slug":39,"title":40,"cover_image":41,"image_url":41,"created_at":42,"category":13},"8c68f33b-8ab7-40f8-96d6-cb854eb9b654","worldevolver-self-evolving-world-models-llm-planning-zh","WorldEvolver 讓 LLM 代理自我修正前瞻","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782801181629-6zpm.png","2026-06-30T06:32:28.902643+00:00",{"id":44,"slug":45,"title":46,"cover_image":47,"image_url":47,"created_at":48,"category":13},"e6db7892-cfae-4a48-ae72-0b56f71e737a","vlk-synthetic-humanoid-loco-manipulation-zh","VLK 用合成場景訓練人形機器人","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782799374468-q7z1.png","2026-06-30T06:02:29.630156+00:00",{"id":50,"slug":51,"title":52,"cover_image":53,"image_url":53,"created_at":54,"category":13},"d6f25c66-98f5-4971-8d1d-487fb5fe1881","claude-sonnet-46-sre-benchmark-rootly-zh","Claude Sonnet 4.6 對上 SRE 工作更接近 Opus","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782750780131-xelc.png","2026-06-29T16:32:28.457338+00:00",{"id":56,"slug":57,"title":58,"cover_image":59,"image_url":59,"created_at":60,"category":13},"29321237-6e9a-4271-b9fb-e43e798d5dff","glm-52-beats-claude-semgrep-idor-test-zh","GLM 5.2 在 IDOR 測試贏過 Claude","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782749882713-7i5n.png","2026-06-29T16:17:31.911487+00:00",{"id":62,"slug":63,"title":64,"cover_image":65,"image_url":65,"created_at":66,"category":13},"5172bfc7-34c8-4477-a177-ffa615497ecf","opd-distillation-skills-without-bruteforce-rl-zh","OPD 讓你把技能蒸餾進模型","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782730101413-5wjx.png","2026-06-29T10:47:57.457072+00:00",{"id":68,"slug":69,"title":70,"cover_image":71,"image_url":71,"created_at":72,"category":13},"6f5be102-5764-44f1-ab3f-722fc5c32c23","google-deepmind-turns-science-into-tools-zh","Google DeepMind把AI變研究工具","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782721105628-g4op.png","2026-06-29T08:17:57.716568+00:00",[74,79,84,89,94,99,104,109,114,119],{"id":75,"slug":76,"title":77,"created_at":78},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":80,"slug":81,"title":82,"created_at":83},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":85,"slug":86,"title":87,"created_at":88},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":90,"slug":91,"title":92,"created_at":93},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":95,"slug":96,"title":97,"created_at":98},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":100,"slug":101,"title":102,"created_at":103},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":105,"slug":106,"title":107,"created_at":108},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":110,"slug":111,"title":112,"created_at":113},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":115,"slug":116,"title":117,"created_at":118},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":120,"slug":121,"title":122,"created_at":123},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]