返回首頁

標籤

long context

長上下文指的是模型在一次推理中維持大量前後文的能力,牽涉記憶壓縮、檢索、快權重更新與推理穩定性。從 1M/2M token 視窗到 state-space、TTT 與 agent 工作流,都是它的實作重點。

13 篇文章

小米 MiMo-V2.5-Pro:價格、評測與限制
模型發布/6月26日

小米 MiMo-V2.5-Pro:價格、評測與限制

小米 MiMo-V2.5-Pro 是一款 text-only 模型,主打 1M token 長上下文、程式碼與 agent 工作,價格落在中段,適合大型文件與多步驟任務。

ArXiv這批 AI 論文都在補三件事
技術研究/6月17日

ArXiv這批 AI 論文都在補三件事

這批 arXiv AI 論文集中在 agent 推理、長上下文資料、以及更貼近真實工作的 benchmark 設計。

MiniMax M3 的真正優勢是 agentic 工作,不是全面稱王
AI Agent/6月16日

MiniMax M3 的真正優勢是 agentic 工作,不是全面稱王

MiniMax M3 不是全能型強者,但在 agentic 任務與超長上下文上很有價值,適合做流程自動化與長文工作,不適合被當成萬用預設模型。

MiMo-V2.5-Pro 把 agent 工作變成一個 API
工具應用/6月13日

MiMo-V2.5-Pro 把 agent 工作變成一個 API

我拆 MiMo-V2.5-Pro 在 OpenRouter 的用法,重點是怎麼接進 agent 工作流、怎麼選 routing、怎麼直接抄模板上線。

Gemini 3.5 Flash 價格與長上下文解析
模型發布/6月7日

Gemini 3.5 Flash 價格與長上下文解析

Gemini 3.5 Flash 主打 1048576 token 長上下文,API 價格為每百萬輸入 1.50 美元、輸出 9 美元,適合文件、程式碼與 agent 工作流。

MiniMax M3 讓工程師工作流更像代理
模型發布/6月6日

MiniMax M3 讓工程師工作流更像代理

我把 MiniMax M3 拆成 6 個開發者能直接照搬的工作流技巧,重點是怎麼把長上下文、多模態和 agent 能力變成實際評測法。

Gemini 把 Google AI 變成一個入口
工具應用/6月6日

Gemini 把 Google AI 變成一個入口

拆 Gemini 怎麼把 Google 的聊天、模型、Search 和 Vertex AI 收進同一個入口,順便給你可直接套用的命名與路由模板。

5 個 Grok 更新把聊天變工具
AI Agent/5月23日

5 個 Grok 更新把聊天變工具

拆解 xAI 5 個 5 月更新,順手給你一份可直接貼上的 Grok 工作流模板。

DashAttention 讓稀疏長上下文可微
技術研究/5月19日

DashAttention 讓稀疏長上下文可微

DashAttention 把長上下文的分層稀疏注意力改成可微、可自適應的選擇機制,讓模型在 75% 稀疏下仍能維持接近全注意力的表現。

為什麼 Xiaomi 的 MiMo-V2.5-Pro 改變的是 Coding …
模型發布/5月14日

為什麼 Xiaomi 的 MiMo-V2.5-Pro 改變的是 Coding …

MiMo-V2.5-Pro 的重點不在聊天能力,而在長時間、重工具呼叫的 coding agent 工作;它代表 AI 競爭焦點正從會說話,轉向能把任務做完。

Sessa 把注意力放進狀態空間記憶
技術研究/4月21日

Sessa 把注意力放進狀態空間記憶

Sessa 把 attention 放進 state-space 的回饋路徑,想同時保留長上下文檢索與穩定記憶。摘要主打 power-law 記憶尾巴,並宣稱長上下文 benchmark 表現領先。

In-Place TTT 讓 LLM 推理時自適應
技術研究/4月8日

In-Place TTT 讓 LLM 推理時自適應

這篇論文把 test-time training 做成可直接嵌入 LLM 的推理更新機制,讓模型在長上下文下用 fast weights 即時適應,不必整個重訓。

Agent 與結構化輸出提示詞實戰
AI Agent/4月3日

Agent 與結構化輸出提示詞實戰

LLM 進到生產環境後,提示詞不再是寫得漂亮就好。這篇拆解推理、長上下文、JSON 合約與 agent 迴圈,講清楚怎麼把 GPT、Claude 和本地模型用得更穩。