標籤
long context
長上下文指的是模型在一次推理中維持大量前後文的能力,牽涉記憶壓縮、檢索、快權重更新與推理穩定性。從 1M/2M token 視窗到 state-space、TTT 與 agent 工作流,都是它的實作重點。
13 篇文章

小米 MiMo-V2.5-Pro:價格、評測與限制
小米 MiMo-V2.5-Pro 是一款 text-only 模型,主打 1M token 長上下文、程式碼與 agent 工作,價格落在中段,適合大型文件與多步驟任務。

ArXiv這批 AI 論文都在補三件事
這批 arXiv AI 論文集中在 agent 推理、長上下文資料、以及更貼近真實工作的 benchmark 設計。

MiniMax M3 的真正優勢是 agentic 工作,不是全面稱王
MiniMax M3 不是全能型強者,但在 agentic 任務與超長上下文上很有價值,適合做流程自動化與長文工作,不適合被當成萬用預設模型。

MiMo-V2.5-Pro 把 agent 工作變成一個 API
我拆 MiMo-V2.5-Pro 在 OpenRouter 的用法,重點是怎麼接進 agent 工作流、怎麼選 routing、怎麼直接抄模板上線。

Gemini 3.5 Flash 價格與長上下文解析
Gemini 3.5 Flash 主打 1048576 token 長上下文,API 價格為每百萬輸入 1.50 美元、輸出 9 美元,適合文件、程式碼與 agent 工作流。

MiniMax M3 讓工程師工作流更像代理
我把 MiniMax M3 拆成 6 個開發者能直接照搬的工作流技巧,重點是怎麼把長上下文、多模態和 agent 能力變成實際評測法。

Gemini 把 Google AI 變成一個入口
拆 Gemini 怎麼把 Google 的聊天、模型、Search 和 Vertex AI 收進同一個入口,順便給你可直接套用的命名與路由模板。

5 個 Grok 更新把聊天變工具
拆解 xAI 5 個 5 月更新,順手給你一份可直接貼上的 Grok 工作流模板。

DashAttention 讓稀疏長上下文可微
DashAttention 把長上下文的分層稀疏注意力改成可微、可自適應的選擇機制,讓模型在 75% 稀疏下仍能維持接近全注意力的表現。

為什麼 Xiaomi 的 MiMo-V2.5-Pro 改變的是 Coding …
MiMo-V2.5-Pro 的重點不在聊天能力,而在長時間、重工具呼叫的 coding agent 工作;它代表 AI 競爭焦點正從會說話,轉向能把任務做完。

Sessa 把注意力放進狀態空間記憶
Sessa 把 attention 放進 state-space 的回饋路徑,想同時保留長上下文檢索與穩定記憶。摘要主打 power-law 記憶尾巴,並宣稱長上下文 benchmark 表現領先。

In-Place TTT 讓 LLM 推理時自適應
這篇論文把 test-time training 做成可直接嵌入 LLM 的推理更新機制,讓模型在長上下文下用 fast weights 即時適應,不必整個重訓。

Agent 與結構化輸出提示詞實戰
LLM 進到生產環境後,提示詞不再是寫得漂亮就好。這篇拆解推理、長上下文、JSON 合約與 agent 迴圈,講清楚怎麼把 GPT、Claude 和本地模型用得更穩。