標籤
長上下文
長上下文指模型能在同一次推理中保留更多文件、程式碼、對話與工具輸出,從 128K、256K 到百萬級 token 都是重點。它影響長文件分析、跨檔案編輯、代理式工作流與記憶壓縮策略,也直接牽動成本、延遲與幻覺風險。
19 篇文章

Kimi K2.6 登頂程式與代理式 AI 基準
Moonshot AI 在 2026-06-26 發布 Kimi K2.6,主打 262,144 token 長上下文、300 子代理與 4,000 步協作,並在多項程式與代理式基準拿下高分。

TurboQuant 讓長上下文推理更省記憶體
5 項重點看懂 TurboQuant 如何在不重訓下壓縮 KV cache,將記憶體用量最多降 6×,並在長上下文推理中提升吞吐。

MiniMax M3 證明開放權重前沿模型已經重要
MiniMax M3 顯示開放權重模型已能在程式碼、代理、長上下文與多模態上,和前沿閉源模型正面競爭。

Kimi 的長上下文一路加大
Moonshot AI 的 Kimi 從長上下文聊天機器人,走到 agent 與 1T 參數模型。Kimi K2.5 在 2026 年 1 月登場,也把產品線推到更複雜的階段。

Randomized YaRN 讓長上下文更穩
Randomized YaRN 透過隨機化位置編碼與長度課程,讓只看過短上下文訓練的 LLM,更能推廣到 16K 到 128K 的長推理窗口。

小米 MiMo Code 挑戰 Claude Code
小米推出開源 MiMo Code,主打 200 步以上的長任務編碼表現,並同步釋出 MiMo Auto 與 MiMo-V2.5 系列參數、價格與上下文數據。

Gemini 3.5 Pro 6月登場,2M Token 夠猛
Google 傳出要在 6 月推出 Gemini 3.5 Pro,主打 2M Token 上下文。這代表長文件、程式碼庫和多輪分析會更好處理,但實際表現還是要看價格、速度和穩定性。

MiniMax M3 證明開放權重在寫程式上仍能贏
MiniMax M3 證明開放權重模型不只可以追上前沿,還能在寫程式、長上下文與成本控制上形成優勢。

為什麼 MiniMax M3 比又一個長上下文模型更重要
MiniMax M3 的重要性不在於它又把上下文做大,而在於它把長上下文、多模態與代理控制綁成一個可用系統。

為什麼 Tether 把本地 AI 記憶推進日常裝置是對的
TurboQuant 的價值不在於更快,而在於把長上下文 AI 從資料中心拉回手機、筆電與邊緣裝置,讓本地 AI 真正可用。

Llama 3.1 70B:規格與部署
Meta 的 Llama 3.1 70B 仍是 128K 長上下文的自架文字模型,適合內部聊天、RAG 與 API 編排,重點在成本控制與部署自主性。

為什麼 Claude Code 應該用 DeepSeek v4 來處理 1M …
Claude Code 在長上下文程式工作上,應優先路由到 DeepSeek v4,因為 1M context 比品牌偏好更能決定實際產出。

GPT-5.4 知識測驗拿 97.6 分
GPT-5.4 在 BenchLM 知識與理解拿到 97.6 分,總榜暫列第 2,還有 1.05M token 長上下文。這篇拆解它適合哪些工作、和其他模型怎麼比。

Claude Code壓縮機制怎麼省上下文
Claude Code 用多層壓縮處理長對話上下文,避免 200K 到 1M token 被文件、Shell 輸出和編輯記錄吃光。

Grok 4.1 低調升級,卻很有料
xAI 的 Grok 4.1 把幻覺率從 12.09% 降到 4.22%,還加入 Fast 與 Thinking 兩種模式,支援 256k context 與 2M token API,對開發者很實際。

Grok 4.20 怎麼看
xAI 的 Grok 4.20 主打 200 萬 token 長上下文、多代理推理與 API 價格。這篇拆解它的定位、規格、競品差異與開發者該注意的坑。

Claude、ChatGPT、Copilot、Gemini…
Claude 擅長長上下文與程式工作;ChatGPT、Copilot、Gemini 則靠分發、整合與工作流吃香。企業 2026 年該怎麼選,重點不是誰最強,而是誰最適合你的資料、流程與控管。

Gemini 3.1 Pro 數字看真實力
Gemini 3.1 Pro 以 77.1% ARC-AGI-2、94.3% GPQA Diamond、1M token 上下文登場,價格仍維持 Gemini 3。這次重點不是噱頭,而是長文檔、程式碼與 agent 工作流的實戰成本。

TurboQuant 解不了記憶體荒
Google 的 TurboQuant 可把 KV-cache 記憶體用量降到 6 倍,但更長上下文、更多 agent 與更高吞吐,可能把 DRAM 和 NAND 需求繼續往上推。