[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-randomized-yarn-long-context-reasoning-zh":3,"article-related-randomized-yarn-long-context-reasoning-zh":30,"series-research-7171fed6-f304-4f46-9efe-f691ea304b65":74},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"7171fed6-f304-4f46-9efe-f691ea304b65","randomized-yarn-long-context-reasoning-zh","Randomized YaRN 讓長上下文更穩","\u003Cp data-speakable=\"summary\">Randomized YaRN 透過隨機化位置編碼與長度課程，讓只看過短上下文訓練的 \u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa>，更能推廣到 16K 到 128K 的長推理窗口。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：arXiv 摘要未明確標註\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：16K 到 128K 上下文長度\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：隨機化位置外推\u003C\u002Fli>\u003C\u002Ful>\u003Cp>\u003Ca href=\"\u002Ftag\u002F長上下文\">長上下文\u003C\u002Fa>不是把視窗拉大而已。真正難的是，模型在訓練時只看過短序列，到了超出分佈的長度後，還能不能維持推理能力。這篇論文瞄準的就是這個落差。它不是去改一個全新的注意力架構，而是改訓練時的位置訊號，讓模型在短\u003Ca href=\"\u002Fnews\u002Fautodex-automates-dexterous-grasp-data-collection-zh\">資料\u003C\u002Fa>上也能提早接觸「像長上下文一樣」的條件。\u003C\u002Fp>\u003Cp>對做檢索式助理、多文件推理、或需要跨很長提示追蹤引用的開發者來說，這個問題很實際。模型能吃下長輸入，不代表它真的懂得在長輸入裡推理。Randomized YaRN 想修的，就是這種「看得到、但用不好」的長上下文失真。\u003C\u002Fp>\u003Ch2>這篇論文在解什麼痛點\u003C\u002Fh2>\u003Cp>原始摘要的問題定義很直接：大型語言模型常常先在較短序列上預訓練，再透過額外訓練延伸到更長的上下文。這種做法可以把上下文窗口撐大，但模型對超長序列的泛化仍然不夠穩。也就是說，它可能在訓練見過的長度表現正常，一旦推到更遠的長度，表現就開始掉。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782195475543-rsm6.png\" alt=\"Randomized YaRN 讓長上下文更穩\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這背後的關鍵，不只是 \u003Ca href=\"\u002Ftag\u002Ftoken\">token\u003C\u002Fa> 數變多。位置編碼本身就可能是隱性失敗點。模型如果訓練時只看過一小段位置範圍，就不一定知道當位置被推到更外圍時，該怎麼處理依賴關係。長上下文推理最怕的，就是距離一拉開，引用、指代、跨段關聯一起鬆掉。\u003C\u002Fp>\u003Cp>所以這篇論文不是單純追求「更長的輸入」，而是想讓模型在訓練階段就面對更難的位置條件。這樣一來，即使文本本身還是短的，模型也會被迫學會處理超出原本分佈的位置表示。這就是 Randomized YaRN 的出發點。\u003C\u002Fp>\u003Ch2>方法怎麼做，白話講\u003C\u002Fh2>\u003Cp>Randomized YaRN 由三個部分組成：YaRN 式的位置外推、隨機化位置編碼，以及長度課程。最核心的動作是，在短上下文資料上訓練時，token 會被指定來自更大位置範圍的 YaRN 位置編碼。換句話說，文本雖然短，但位置座標被「拉」到更像長上下文的區域。\u003C\u002Fp>\u003Cp>這種設計的好處很明顯。你不需要每筆訓練資料都真的塞到超長，才能讓模型接觸到超長的難度。它是在短資料上，人工製造出分佈外的位置壓力。模型一邊學短文本內容，一邊也被迫適應更外圍的位置模式，久了之後，對真正長序列的耐受度就有機會變高。\u003C\u002Fp>\u003Cp>長度課程則是另一層保護。摘要沒有把每個課程細節講完，但它明確把方法描述成一種逐步增加難度的訓練策略，而不是一開始就把模型丟進最難場景。這對實作很有意義，因為很多訓練配方的效果，不是來自單一技巧，而是來自「先鋪路，再加壓」的節奏。\u003C\u002Fp>\u003Cp>要注意的是，摘要沒有說這是新的注意力機制。它更像是調整訓練時的位置分佈，讓模型原本就有的長上下文能力，能更好地外推到沒看過的長度。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>這篇論文拿兩個長上下文推理基準來測：BABILong 和 Multi-Round Coreference Resolution，也就是 MRCR。這兩類任務都很吃長距離關聯，因為它們不是只考你找一個事實，而是要你在很長的文字跨度裡，持續追蹤資訊與指代關係。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782195478299-r1dy.png\" alt=\"Randomized YaRN 讓長上下文更穩\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>摘要給了一個很關鍵的範圍：訓練資料的上下文少於 8K，但評估時的上下文長度從 16K 一路拉到 128K。這代表它不是在舒適圈內做微調，而是在明確測試模型能不能跨出訓練分佈。論文聲稱，Randomized YaRN 在這個跨度上都能持續改善推理表現。\u003C\u002Fp>\u003Cp>摘要也說，它的表現優於標準 fine-tuning，而且最大幅度的提升出現在最遠離訓練分佈的長度。這點很重要。因為如果一個方法只在接近訓練邊界時有用，那通常只是小修小補；但如果它在 128K 這種極端位置還能繼續帶來收益，就比較像是在改變模型的泛化方式。\u003C\u002Fp>\u003Cp>不過，這份摘要沒有公開完整 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 數字、百分比提升、延遲或成本細節。所以我們能確認的是「有一致改善」與「遠距離更明顯」，但不能從這份來源直接量化成具體分數差。\u003C\u002Fp>\u003Ch2>為什麼這對開發者有感\u003C\u002Fh2>\u003Cp>做長上下文產品的人，最常遇到的問題不是模型不能吃 prompt，而是它吃進去之後開始失真。它可能忘記前面的引用，搞混多段文件的關聯，或者在很長的上下文裡，推理鏈變得不穩。這篇論文提供的是一種訓練期解法，直接對準這個痛點。\u003C\u002Fp>\u003Cp>實務上，這代表你不一定非得把訓練資料全面改成超長序列，才有機會把長上下文能力拉上來。Randomized YaRN 的思路是：即使資料本身短，也可以透過隨機化位置編碼，讓模型在訓練時承受更像 OOD 的位置條件。對訓練資源有限的團隊來說，這種作法很有吸引力。\u003C\u002Fp>\u003Cp>如果你的產品是 RAG、多跳問答、程式碼庫助理、文件分析，或任何需要跨很多段文字維持關聯的系統，這類方法都值得關注。它不是單純把窗口做大，而是想讓模型在大窗口裡真的更穩。這兩者在產品上差很多。\u003C\u002Fp>\u003Ch2>限制和還沒說清楚的地方\u003C\u002Fh2>\u003Cp>這份摘要的資訊很集中，但也留了不少空白。首先，沒有 benchmark 的完整數字，所以無法從摘要判斷提升幅度到底有多大，也無法看出代價是什麼。像訓練成本、模型規模、消融實驗、以及每個元件各自的貢獻，摘要都沒有交代。\u003C\u002Fp>\u003Cp>其次，摘要只提到兩個任務：BABILong 和 MRCR。這代表它確實針對長上下文推理做了驗證，但還不能直接推論到所有長上下文\u003Ca href=\"\u002Fnews\u002Fmicrosoft-copilot-studio-april-2026-updates-zh\">工作\u003C\u002Fa>負載。像檢索、摘要、或 \u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa> 式工具使用，是否也會吃到同樣的收益，摘要沒有說。\u003C\u002Fp>\u003Cp>再來是工程複雜度。從概念上看，Randomized YaRN 很乾淨：改位置、加課程、做外推。但真正導入時，位置範圍、課程排程、底模架構相容性，這些都可能影響結果。摘要沒有提供足夠細節，讓人判斷它對不同訓練設定有多敏感。\u003C\u002Fp>\u003Ch2>總結\u003C\u002Fh2>\u003Cp>Randomized YaRN 的核心貢獻，是用隨機化位置編碼和長度課程，讓只看過短上下文訓練的模型，更能泛化到 16K 到 128K 的長推理窗口。它解的不是「能不能塞進去」，而是「塞進去之後還能不能推理好」。\u003C\u002Fp>\u003Cp>對開發者來說，這篇論文的訊號很清楚：長上下文能力不一定只能靠更長的預訓練序列堆出來。把位置分佈做得更難，可能也是一條路。只是目前這份摘要沒有公開完整 benchmark 數字，所以更適合把它視為一個有方向性的訓練配方，而不是已經能直接量產套用的結論。\u003C\u002Fp>\u003Cp>如果你的系統很依賴長提示、跨文件追蹤、或超長推理鏈，這篇值得放進觀察清單。它提供的是一個很實際的訊息：要讓模型撐住長上下文，\u003Ca href=\"\u002Fnews\u002Fbaya-openchip-bet-ai-silicon-data-movement-zh\">關鍵不\u003C\u002Fa>只是長度，還有位置分佈。\u003C\u002Fp>\u003Cul>\u003Cli>它處理的是長上下文泛化，不只是輸入窗口變大。\u003C\u002Fli>\u003Cli>它用隨機化位置編碼，逼模型提前適應分佈外位置。\u003C\u002Fli>\u003Cli>它在 16K 到 128K 的長度範圍內，主張能持續改善推理表現。\u003C\u002Fli>\u003C\u002Ful>","Randomized YaRN 透過隨機化位置編碼與長度課程，讓只看過短上下文訓練的 LLM，更能推廣到 16K 到 128K 的長推理窗口。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.23687",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782195475543-rsm6.png","research","zh","d81e3cd8-ad4e-430c-a71e-c66d867a627f",[17,18,19,20,21],"長上下文","位置編碼","YaRN","length curriculum","推理泛化",[23,24,25],"用隨機化位置編碼提升短訓練到長推理的泛化","在 BABILong 與 MRCR 上主張比標準 fine-tuning 更好","摘要未公開完整 benchmark 數字與訓練成本細節",0,"2026-06-23T06:17:32.36653+00:00","2026-06-23T06:17:32.36+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":31,"relatedLang":33,"relatedPosts":37},[32],{"name":17,"slug":17},{"id":15,"slug":34,"title":35,"language":36},"randomized-yarn-long-context-reasoning-en","Randomized YaRN boosts long-context reasoning","en",[38,44,50,56,62,68],{"id":39,"slug":40,"title":41,"cover_image":42,"image_url":42,"created_at":43,"category":13},"8531d5f9-60f1-4a4b-94a3-323b82990f06","lifescibench-tests-biotech-models-zh","LifeSciBench 讓模型先過科研關","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782198202904-lzgm.png","2026-06-23T07:02:47.182473+00:00",{"id":45,"slug":46,"title":47,"cover_image":48,"image_url":48,"created_at":49,"category":13},"f6fbee54-8ee4-4ad1-a6bb-a3f2ac890430","coordex-humanoid-loco-manipulation-priors-zh","CoorDex 讓人形機器人邊走邊操作","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782196378261-6x4x.png","2026-06-23T06:32:32.262148+00:00",{"id":51,"slug":52,"title":53,"cover_image":54,"image_url":54,"created_at":55,"category":13},"56da2379-5b47-4f3d-827f-e50d8be5d015","autodex-automates-dexterous-grasp-data-collection-zh","AutoDex 自動蒐集靈巧抓取資料","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782194579214-qano.png","2026-06-23T06:02:31.192727+00:00",{"id":57,"slug":58,"title":59,"cover_image":60,"image_url":60,"created_at":61,"category":13},"e4e8944f-676d-4f8b-823f-2bce38a09587","anthropic-scale-lead-frontier-ai-moat-zh","Anthropic 的規模領先，才是前沿 AI 真正的護城河","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782169366176-b59n.png","2026-06-22T23:02:23.331672+00:00",{"id":63,"slug":64,"title":65,"cover_image":66,"image_url":66,"created_at":67,"category":13},"faea762d-3f1d-446a-89af-d8278d8eb21f","teampcp-supply-chain-ai-poisoning-zh","TeamPCP 供应链投毒升級","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782162173285-n712.png","2026-06-22T21:02:22.730536+00:00",{"id":69,"slug":70,"title":71,"cover_image":72,"image_url":72,"created_at":73,"category":13},"cfe36fb5-68ec-480a-a9be-04660e360468","ethereum-wikipedia-dev-cheat-sheet-zh","Ethereum 把 Wikipedia 變開發者速查表","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782152293852-4cw2.png","2026-06-22T18:17:49.917842+00:00",[75,80,85,90,95,100,105,110,115,120],{"id":76,"slug":77,"title":78,"created_at":79},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":81,"slug":82,"title":83,"created_at":84},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":86,"slug":87,"title":88,"created_at":89},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":91,"slug":92,"title":93,"created_at":94},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":96,"slug":97,"title":98,"created_at":99},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":101,"slug":102,"title":103,"created_at":104},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":106,"slug":107,"title":108,"created_at":109},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":111,"slug":112,"title":113,"created_at":114},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":116,"slug":117,"title":118,"created_at":119},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":121,"slug":122,"title":123,"created_at":124},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]