標籤
chain-of-thought
Chain-of-thought 著重模型如何把多步推理串起來,而不只是給出最後答案。這個主題涵蓋長鏈推理、agent 迴圈、結構化輸出與長上下文下的穩定性,對評估與部署 LLM 很重要。
8 篇文章

技術研究/6月29日
LLM 行為不一定可移植
這篇研究指出,LLM 在一個情境學到的行為,常常無法穩定轉移到報酬等價但表面不同的環境。

技術研究/6月8日
LLM 在反直覺機率題翻車
這篇研究發現,LLM 在標準機率題表現很高,但遇到反直覺、改寫或帶誤導提示的題目時,準確率會明顯下滑。

技術研究/6月5日
為什麼 2026 年 prompt engineering 錯了
2026 年真正決定 AI 輸出品質的不是 prompt 技巧,而是 context engineering;結構化輸入、範例與工具串接,才是降低錯誤與提升可重複性的關鍵。

技術研究/6月3日
IPT 讓 VLM 更會想像隱藏空間
IPT 用中介感知 token 讓多模態模型學會推理看不到的空間結構,特別是在遮擋、視角切換與路徑追蹤上更準。

工具應用/5月21日
Prompt engineering 讓模糊需求變可用輸出
我把 prompt engineering 拆成可直接抄的幾個寫法:怎麼寫約束、塞例子、控上下文,還有一份可貼進工作流的模板。

技術研究/5月19日
IBM 提示指南把猜答案變輸出
我把 IBM 的 prompt guide 拆成可直接上手的寫法,重點是怎麼把模糊提問改成可控輸出。

技術研究/4月16日
LongCoT:測長鏈推理,不只看答案
LongCoT 用 2,500 題測試模型能否在長鏈、互相依賴的推理步驟中保持一致。GPT 5.2 與 Gemini 3 Pro 仍低於 10%。

AI Agent/4月3日
Agent 與結構化輸出提示詞實戰
LLM 進到生產環境後,提示詞不再是寫得漂亮就好。這篇拆解推理、長上下文、JSON 合約與 agent 迴圈,講清楚怎麼把 GPT、Claude 和本地模型用得更穩。