返回首頁

標籤

長上下文

長上下文指模型能在同一次推理中保留更多文件、程式碼、對話與工具輸出,從 128K、256K 到百萬級 token 都是重點。它影響長文件分析、跨檔案編輯、代理式工作流與記憶壓縮策略,也直接牽動成本、延遲與幻覺風險。

19 篇文章

Kimi K2.6 登頂程式與代理式 AI 基準
模型發布/6月29日

Kimi K2.6 登頂程式與代理式 AI 基準

Moonshot AI 在 2026-06-26 發布 Kimi K2.6,主打 262,144 token 長上下文、300 子代理與 4,000 步協作,並在多項程式與代理式基準拿下高分。

TurboQuant 讓長上下文推理更省記憶體
產業動態/6月29日

TurboQuant 讓長上下文推理更省記憶體

5 項重點看懂 TurboQuant 如何在不重訓下壓縮 KV cache,將記憶體用量最多降 6×,並在長上下文推理中提升吞吐。

MiniMax M3 證明開放權重前沿模型已經重要
模型發布/6月25日

MiniMax M3 證明開放權重前沿模型已經重要

MiniMax M3 顯示開放權重模型已能在程式碼、代理、長上下文與多模態上,和前沿閉源模型正面競爭。

Kimi 的長上下文一路加大
模型發布/6月24日

Kimi 的長上下文一路加大

Moonshot AI 的 Kimi 從長上下文聊天機器人,走到 agent 與 1T 參數模型。Kimi K2.5 在 2026 年 1 月登場,也把產品線推到更複雜的階段。

Randomized YaRN 讓長上下文更穩
技術研究/6月23日

Randomized YaRN 讓長上下文更穩

Randomized YaRN 透過隨機化位置編碼與長度課程,讓只看過短上下文訓練的 LLM,更能推廣到 16K 到 128K 的長推理窗口。

小米 MiMo Code 挑戰 Claude Code
產業動態/6月16日

小米 MiMo Code 挑戰 Claude Code

小米推出開源 MiMo Code,主打 200 步以上的長任務編碼表現,並同步釋出 MiMo Auto 與 MiMo-V2.5 系列參數、價格與上下文數據。

Gemini 3.5 Pro 6月登場,2M Token 夠猛
模型發布/6月12日

Gemini 3.5 Pro 6月登場,2M Token 夠猛

Google 傳出要在 6 月推出 Gemini 3.5 Pro,主打 2M Token 上下文。這代表長文件、程式碼庫和多輪分析會更好處理,但實際表現還是要看價格、速度和穩定性。

MiniMax M3 證明開放權重在寫程式上仍能贏
模型發布/6月9日

MiniMax M3 證明開放權重在寫程式上仍能贏

MiniMax M3 證明開放權重模型不只可以追上前沿,還能在寫程式、長上下文與成本控制上形成優勢。

為什麼 MiniMax M3 比又一個長上下文模型更重要
模型發布/6月6日

為什麼 MiniMax M3 比又一個長上下文模型更重要

MiniMax M3 的重要性不在於它又把上下文做大,而在於它把長上下文、多模態與代理控制綁成一個可用系統。

為什麼 Tether 把本地 AI 記憶推進日常裝置是對的
工具應用/6月4日

為什麼 Tether 把本地 AI 記憶推進日常裝置是對的

TurboQuant 的價值不在於更快,而在於把長上下文 AI 從資料中心拉回手機、筆電與邊緣裝置,讓本地 AI 真正可用。

Llama 3.1 70B:規格與部署
模型發布/6月2日

Llama 3.1 70B:規格與部署

Meta 的 Llama 3.1 70B 仍是 128K 長上下文的自架文字模型,適合內部聊天、RAG 與 API 編排,重點在成本控制與部署自主性。

為什麼 Claude Code 應該用 DeepSeek v4 來處理 1M …
工具應用/5月4日

為什麼 Claude Code 應該用 DeepSeek v4 來處理 1M …

Claude Code 在長上下文程式工作上,應優先路由到 DeepSeek v4,因為 1M context 比品牌偏好更能決定實際產出。

GPT-5.4 知識測驗拿 97.6 分
模型發布/4月13日

GPT-5.4 知識測驗拿 97.6 分

GPT-5.4 在 BenchLM 知識與理解拿到 97.6 分,總榜暫列第 2,還有 1.05M token 長上下文。這篇拆解它適合哪些工作、和其他模型怎麼比。

Claude Code壓縮機制怎麼省上下文
工具應用/4月8日

Claude Code壓縮機制怎麼省上下文

Claude Code 用多層壓縮處理長對話上下文,避免 200K 到 1M token 被文件、Shell 輸出和編輯記錄吃光。

Grok 4.1 低調升級,卻很有料
模型發布/4月3日

Grok 4.1 低調升級,卻很有料

xAI 的 Grok 4.1 把幻覺率從 12.09% 降到 4.22%,還加入 Fast 與 Thinking 兩種模式,支援 256k context 與 2M token API,對開發者很實際。

Grok 4.20 怎麼看
模型發布/4月3日

Grok 4.20 怎麼看

xAI 的 Grok 4.20 主打 200 萬 token 長上下文、多代理推理與 API 價格。這篇拆解它的定位、規格、競品差異與開發者該注意的坑。

Claude、ChatGPT、Copilot、Gemini…
產業動態/4月3日

Claude、ChatGPT、Copilot、Gemini…

Claude 擅長長上下文與程式工作;ChatGPT、Copilot、Gemini 則靠分發、整合與工作流吃香。企業 2026 年該怎麼選,重點不是誰最強,而是誰最適合你的資料、流程與控管。

Gemini 3.1 Pro 數字看真實力
模型發布/4月3日

Gemini 3.1 Pro 數字看真實力

Gemini 3.1 Pro 以 77.1% ARC-AGI-2、94.3% GPQA Diamond、1M token 上下文登場,價格仍維持 Gemini 3。這次重點不是噱頭,而是長文檔、程式碼與 agent 工作流的實戰成本。

TurboQuant 解不了記憶體荒
技術研究/4月2日

TurboQuant 解不了記憶體荒

Google 的 TurboQuant 可把 KV-cache 記憶體用量降到 6 倍,但更長上下文、更多 agent 與更高吞吐,可能把 DRAM 和 NAND 需求繼續往上推。