標籤

long context

長上下文指的是模型在一次推理中維持大量前後文的能力，牽涉記憶壓縮、檢索、快權重更新與推理穩定性。從 1M/2M token 視窗到 state-space、TTT 與 agent 工作流，都是它的實作重點。

13 篇文章

小米 MiMo-V2.5-Pro：價格、評測與限制

小米 MiMo-V2.5-Pro 是一款 text-only 模型，主打 1M token 長上下文、程式碼與 agent 工作，價格落在中段，適合大型文件與多步驟任務。

這批 arXiv AI 論文集中在 agent 推理、長上下文資料、以及更貼近真實工作的 benchmark 設計。

MiniMax M3 不是全能型強者，但在 agentic 任務與超長上下文上很有價值，適合做流程自動化與長文工作，不適合被當成萬用預設模型。

我拆 MiMo-V2.5-Pro 在 OpenRouter 的用法，重點是怎麼接進 agent 工作流、怎麼選 routing、怎麼直接抄模板上線。

Gemini 3.5 Flash 主打 1048576 token 長上下文，API 價格為每百萬輸入 1.50 美元、輸出 9 美元，適合文件、程式碼與 agent 工作流。

我把 MiniMax M3 拆成 6 個開發者能直接照搬的工作流技巧，重點是怎麼把長上下文、多模態和 agent 能力變成實際評測法。

拆 Gemini 怎麼把 Google 的聊天、模型、Search 和 Vertex AI 收進同一個入口，順便給你可直接套用的命名與路由模板。

拆解 xAI 5 個 5 月更新，順手給你一份可直接貼上的 Grok 工作流模板。

DashAttention 把長上下文的分層稀疏注意力改成可微、可自適應的選擇機制，讓模型在 75% 稀疏下仍能維持接近全注意力的表現。

MiMo-V2.5-Pro 的重點不在聊天能力，而在長時間、重工具呼叫的 coding agent 工作；它代表 AI 競爭焦點正從會說話，轉向能把任務做完。

Sessa 把 attention 放進 state-space 的回饋路徑，想同時保留長上下文檢索與穩定記憶。摘要主打 power-law 記憶尾巴，並宣稱長上下文 benchmark 表現領先。

這篇論文把 test-time training 做成可直接嵌入 LLM 的推理更新機制，讓模型在長上下文下用 fast weights 即時適應，不必整個重訓。

LLM 進到生產環境後，提示詞不再是寫得漂亮就好。這篇拆解推理、長上下文、JSON 合約與 agent 迴圈，講清楚怎麼把 GPT、Claude 和本地模型用得更穩。