標籤

chain-of-thought

Chain-of-thought 著重模型如何把多步推理串起來，而不只是給出最後答案。這個主題涵蓋長鏈推理、agent 迴圈、結構化輸出與長上下文下的穩定性，對評估與部署 LLM 很重要。

8 篇文章

LLM 行為不一定可移植

這篇研究指出，LLM 在一個情境學到的行為，常常無法穩定轉移到報酬等價但表面不同的環境。

這篇研究發現，LLM 在標準機率題表現很高，但遇到反直覺、改寫或帶誤導提示的題目時，準確率會明顯下滑。

2026 年真正決定 AI 輸出品質的不是 prompt 技巧，而是 context engineering；結構化輸入、範例與工具串接，才是降低錯誤與提升可重複性的關鍵。

IPT 用中介感知 token 讓多模態模型學會推理看不到的空間結構，特別是在遮擋、視角切換與路徑追蹤上更準。

我把 prompt engineering 拆成可直接抄的幾個寫法：怎麼寫約束、塞例子、控上下文，還有一份可貼進工作流的模板。

我把 IBM 的 prompt guide 拆成可直接上手的寫法，重點是怎麼把模糊提問改成可控輸出。

LongCoT 用 2,500 題測試模型能否在長鏈、互相依賴的推理步驟中保持一致。GPT 5.2 與 Gemini 3 Pro 仍低於 10%。

LLM 進到生產環境後，提示詞不再是寫得漂亮就好。這篇拆解推理、長上下文、JSON 合約與 agent 迴圈，講清楚怎麼把 GPT、Claude 和本地模型用得更穩。