[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-agentic-ai-moving-past-rag-knowledge-layer-zh":3,"article-related-agentic-ai-moving-past-rag-knowledge-layer-zh":31,"series-ai-agent-7a9fa13f-1fbb-438f-bdc7-c47cc5cd1dae":81},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":24,"views":28,"created_at":29,"published_at":30,"topic_cluster_id":11},"7a9fa13f-1fbb-438f-bdc7-c47cc5cd1dae","agentic-ai-moving-past-rag-knowledge-layer-zh","Agentic AI 為何開始跳過 RAG","\u003Cp data-speakable=\"summary\">\u003Ca href=\"\u002Ftag\u002Fagentic-ai\">Agentic AI\u003C\u002Fa> 團隊正把 \u003Ca href=\"\u002Ftag\u002Frag\">RAG\u003C\u002Fa> 換成預先編譯的知識層，因為這樣可以少做重複讀資料的工作。\u003C\u002Fp>\u003Cp>講白了，RAG 一直在重算同一筆帳。每次請求都要抓文件、切 chunk、排順序，再塞進上下文。這些事做一次還行，做十次就很煩。\u003C\u002Fp>\u003Cp>對 \u003Ca href=\"\u002Fnews\u002Fwhy-ai-coding-agents-need-an-architecture-compiler-zh\">agen\u003C\u002Fa>t 來說更明顯。它會規劃、呼叫工具、跑多步流程。只要上下文一直重建，\u003Ca href=\"\u002Ftag\u002Ftoken\">token\u003C\u002Fa> 就一直燒。這不是模型不夠強，是架構把錢花在錯的地方。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>訊號\u003C\u002Fth>\u003Cth>意思\u003C\u002Fth>\u003Cth>為什麼重要\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>RAG 在推理時做事\u003C\u002Ftd>\u003Ctd>邊問邊抓資料\u003C\u002Ftd>\u003Ctd>token 用量高，反應也慢\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>預編譯知識層\u003C\u002Ftd>\u003Ctd>先整理，再讓 agent 用\u003C\u002Ftd>\u003Ctd>每次請求少做重工\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Agentic 工作流\u003C\u002Ftd>\u003Ctd>多步驟、工具呼叫、反覆迭代\u003C\u002Ftd>\u003Ctd>重複上下文成本會放大\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>穩定知識庫\u003C\u002Ftd>\u003Ctd>政策、手冊、SOP 不常改\u003C\u002Ftd>\u003Ctd>很適合先離線處理\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>為什麼 RAG 在 agent 工作流會卡住\u003C\u002Fh2>\u003Cp>先講清楚，RAG 不是壞東西。它解過一個真問題。\u003Ca href=\"\u002Fnews\u002Fselective-llm-regularization-recommenders-zh\">LLM\u003C\u002Fa> 需要新資料，也需要領域知識。RAG 讓模型不用重訓，就能拿到外部資訊。這在單次問答很夠用。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778055061154-hqfw.png\" alt=\"Agentic AI 為何開始跳過 RAG\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>問題出在 \u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa>。Agent 不是只回答一句話。它要看政策、比文件、做摘要，還要根據結果採取動作。每一步都可能再抓一次同樣的資料。這時候，RAG 的成本就開始很刺眼。\u003C\u002Fp>\u003Cp>因為它的流程通常是固定的。先切段，再檢索，再排序，再塞上下文。模型最後還得自己猜結構。這很像叫工程師每次都從零整理 Excel。能做，但很浪費。\u003C\u002Fp>\u003Cul>\u003Cli>每次請求都會重新檢索。\u003C\u002Fli>\u003Cli>chunking 和 rerank 會重做。\u003C\u002Fli>\u003Cli>agent 常會回頭看同一批資料。\u003C\u002Fli>\u003Cli>流程越長，token 浪費越明顯。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>如果知識庫夠穩定，這些工作就不該放在推理時做。它們比較像資料工程，不像即時推理。講白了，能先做的事，就別拖到 runtime 才做。\u003C\u002Fp>\u003Cp>這也是很多團隊開始改架構的原因。不是因為 RAG 沒用，而是因為 agent 工作流把它的缺點放大了。原本可接受的成本，到了多步驟流程就變得很難看。\u003C\u002Fp>\u003Ch2>預編譯知識層到底改了什麼\u003C\u002Fh2>\u003Cp>預編譯知識層的概念很直白。先把文件吃進去，先做解析，再把知識整理成更好用的格式。像是實體抽取、關係圖、術語標準化、事件時間線，這些都可以先離線做。\u003C\u002Fp>\u003Cp>這種做法很像把原始資料先做 ETL。RAG 是把文件當現成答案來源。預編譯知識層是把文件當原料，先加工一次，再給 agent 用。前者省事，後者省 token。\u003C\u002Fp>\u003Cp>這裡的差異不是學術名詞，而是成本結構。你把工作往前移，推理時就少做很多重工。對大量重複查詢、重複摘要、重複決策的系統，這差很多。\u003C\u002Fp>\u003Cblockquote>“The real power of LLMs comes from how much they can do with text, not from replacing the need to structure knowledge,” said Andrej Karpathy in a 2023 talk at Y Combinator.\u003C\u002Fblockquote>\u003Cp>這句話很對味。\u003Ca href=\"\u002Fnews\u002Fllm-overview-manipulation-biases-zh\">LLM\u003C\u002Fa> 擅長處理文字，但不代表每次都該叫它自己整理資料。說真的，讓模型一邊找資料一邊想結構，常常是在燒 token。\u003C\u002Fp>\u003Cp>所以很多團隊現在把精力放到知識建模、schema 設計、離線 enrichment。這些工作沒那麼炫，但很務實。你會先看到延遲降下來，再看到成本變穩。\u003C\u002Fp>\u003Ch2>跟傳統 RAG 的差別在哪\u003C\u002Fh2>\u003Cp>如果只是做臨時問答，RAG 還是很好用。你今天要查一份產品規格，明天要看一份法規摘要，RAG 都能快速上場。它的優點是快，缺點是每次都要重做一遍整理。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778055076147-fb8h.png\" alt=\"Agentic AI 為何開始跳過 RAG\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>一旦進到 agent 工作流，情況就變了。Agent 會反覆檢查上下文，還會跨步驟引用資料。這時候，單純的檢索就不夠了。你需要的是可重用的知識結構。\u003C\u002Fp>\u003Cp>我把兩者差異整理成下面這樣。這樣看最直接，也最像工程現場會遇到的選擇。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>傳統 RAG：\u003C\u002Fstrong>適合單次問答和臨時查詢。\u003C\u002Fli>\u003Cli>\u003Cstrong>預編譯知識層：\u003C\u002Fstrong>適合重複推理和固定知識。\u003C\u002Fli>\u003Cli>\u003Cstrong>Agent loop：\u003C\u002Fstrong>需要更乾淨的上下文。\u003C\u002Fli>\u003Cli>\u003Cstrong>成本結構：\u003C\u002Fstrong>從 runtime 移到 preprocessing。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這個差別也會反映在延遲上。當模型不用每次都從 chunk 重新猜結構，回應通常更穩。不是每個場景都會快很多，但至少不會一直被同一批資料拖住。\u003C\u002Fp>\u003Cp>還有一個很實際的點。預編譯知識層通常比較好除錯。你可以直接看中介產物，像是實體表、關係圖、摘要索引。RAG 的黑盒感比較重，很多問題要追到檢索和排序才看得出來。\u003C\u002Fp>\u003Ch2>競品和數字怎麼看\u003C\u002Fh2>\u003Cp>現在市場上，大家其實都在往「少在推理時做事」這方向走。差別只在名字。有人叫 knowledge layer，有人叫 memory layer，有人直接做 graph-based retrieval。名字很多，核心邏輯差不多。\u003C\u002Fp>\u003Cp>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Flangchain-ai\u002Flangchain\" target=\"_blank\" rel=\"noopener\">LangChain\u003C\u002Fa> 和 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Frun-llama\u002Fllama_index\" target=\"_blank\" rel=\"noopener\">LlamaIndex\u003C\u002Fa> 這類工具，早期幫大家把 RAG 做起來。現在更多團隊開始往 \u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002F\" target=\"_blank\" rel=\"noopener\">Anthropic\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fopenai.com\u002F\" target=\"_blank\" rel=\"noopener\">OpenAI\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fwww.cursor.com\u002F\" target=\"_blank\" rel=\"noopener\">Cursor\u003C\u002Fa> 這種 agent 工作流思路靠攏，重點變成上下文管理和工具協作。\u003C\u002Fp>\u003Cp>如果你看成本，差距會更有感。RAG 的成本常跟查詢次數一起漲。agent 一旦進入多步驟模式，檢索、摘要、重排都會重複出現。這不是 1 次的問題，是 5 次、10 次的問題。\u003C\u002Fp>\u003Cul>\u003Cli>單次問答：RAG 通常夠用。\u003C\u002Fli>\u003Cli>多步驟代理：預編譯層更省 token。\u003C\u002Fli>\u003Cli>穩定文件：離線整理更划算。\u003C\u002Fli>\u003Cli>高變動資料：即時檢索還是必要。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>我覺得最實際的做法不是二選一，而是混搭。穩定政策先編譯，變動新聞再檢索。固定 FAQ 先結構化，臨時資料再抓即時來源。這樣比較像真的在做系統，不是在玩名詞。\u003C\u002Fp>\u003Cp>如果你是工程團隊，最好直接量三個東西。每步 token、每次延遲、同一份資料被重用幾次。只要這三個數字一拉出來，哪個層該前移，答案通常很明顯。\u003C\u002Fp>\u003Ch2>這波變化的背景是什麼\u003C\u002Fh2>\u003Cp>這件事其實跟 \u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> 產品成熟有關。早期大家先求能用，所以 RAG 很自然。只要能把外部資料接上模型，很多 demo 就能跑起來。那時候重點是有沒有答案，不是成本漂不漂亮。\u003C\u002Fp>\u003Cp>但 agent 不是 demo。Agent 會進到客服、內部知識管理、法務摘要、研究輔助這些場景。這些地方資料很多，而且流程會反覆跑。你很快就會發現，runtime 的每一個多餘步驟都在燒錢。\u003C\u002Fp>\u003Cp>所以現在的趨勢很合理。先把穩定知識整理好，再把即時變化留給檢索。這樣做比較像資料平台思維，也比較像台灣工程團隊熟悉的做法。先把底層整理乾淨，後面才不會一直補洞。\u003C\u002Fp>\u003Cp>另一個背景是上下文窗口雖然變大，但不是萬能。上下文越大，不代表你就該把所有東西都塞進去。很多時候，整理得好比塞得多更重要。這點做過系統的人都懂。\u003C\u002Fp>\u003Ch2>接下來該怎麼做\u003C\u002Fh2>\u003Cp>如果你現在在做 agent，我會先看一件事：哪些知識其實很少變。像政策、產品規格、內部 SOP、客服話術，這些東西通常很適合先編譯。不要每次都讓模型重讀一次。\u003C\u002Fp>\u003Cp>第二步是把 workflow 拆開。哪些步驟是查資料，哪些步驟是推理，哪些步驟只是格式整理。只要你把這三種事分清楚，就比較知道哪一段該放到離線處理。\u003C\u002Fp>\u003Cp>最後，別再把 RAG 當萬用解法。它很方便，但不是所有知識問題都該靠即時檢索。真正該問的是：這份知識，現在要不要每次都重新算一次？\u003C\u002Fp>\u003Cp>我的判斷很直接。接下來一年，做得好的 agent 團隊，會越來越少把 runtime 當資料整理場。誰能先把知識層整理好，誰就比較不會被 token 成本和上下文混亂拖死。\u003C\u002Fp>","Agentic AI 正從 RAG 轉向預先編譯的知識層，重點是減少推理時重複讀資料、降 token 成本，讓多步驟代理更好控。","venturebeat.com","https:\u002F\u002Fventurebeat.com\u002Fdata\u002Fthe-rag-era-is-ending-for-agentic-ai-a-new-compilation-stage-knowledge-layer-is-what-comes-next",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778055061154-hqfw.png","ai-agent","zh","6aa43607-89c8-41b7-badf-f603772f5162",[17,18,19,20,21,22,23],"Agentic AI","RAG","knowledge layer","LLM","token 成本","上下文管理","預編譯知識層",[25,26,27],"RAG 在單次問答很好用，但多步驟 agent 會放大重複檢索成本。","預編譯知識層把整理工作前移，能減少推理時 token 浪費。","最實際的做法是混搭：穩定知識先編譯，變動資料再即時檢索。",8,"2026-05-06T08:10:37.387055+00:00","2026-05-06T08:10:37.132+00:00",{"tags":32,"relatedLang":11,"relatedPosts":44},[33,35,37,39,41],{"name":18,"slug":34},"rag",{"name":21,"slug":36},"token-成本",{"name":20,"slug":38},"llm",{"name":19,"slug":40},"knowledge-layer",{"name":42,"slug":43},"agentic AI","agentic-ai",[45,51,57,63,69,75],{"id":46,"slug":47,"title":48,"cover_image":49,"image_url":49,"created_at":50,"category":13},"83c2f8f6-3710-466e-b52c-473b811f0535","how-to-set-up-openclaw-safely-zh","如何安全架設 OpenClaw","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780549368665-1t2l.png","2026-06-04T05:02:21.26625+00:00",{"id":52,"slug":53,"title":54,"cover_image":55,"image_url":55,"created_at":56,"category":13},"0ba5b1a8-82c5-464a-bea5-9a2c8730da74","aws-devops-agent-turns-incident-chaos-into-triage-zh","AWS DevOps Agent 把事故排查變成三步","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780466689960-g1sv.png","2026-06-03T06:03:14.154923+00:00",{"id":58,"slug":59,"title":60,"cover_image":61,"image_url":61,"created_at":62,"category":13},"841eac88-b0f0-4a4c-9e1e-efc3b5c16281","kimi-k26-live-300-agent-workflows-zh","Kimi K2.6 上線：300 代理工作流","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780430574285-hqpn.png","2026-06-02T20:02:24.972179+00:00",{"id":64,"slug":65,"title":66,"cover_image":67,"image_url":67,"created_at":68,"category":13},"f0411957-bcdb-42d9-a267-3e90ae7d9cb1","how-to-take-a-sabbatical-at-openai-zh","怎麼申請 OpenAI sabbatical","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780398216422-8fi7.png","2026-06-02T11:02:25.74372+00:00",{"id":70,"slug":71,"title":72,"cover_image":73,"image_url":73,"created_at":74,"category":13},"37a5e429-4235-439c-9b05-bb377085462c","8-steps-build-production-rag-with-langchain-zh","8 步驟打造可上線的 LangChain RAG","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780178597493-4hz7.png","2026-05-30T22:02:48.14022+00:00",{"id":76,"slug":77,"title":78,"cover_image":79,"image_url":79,"created_at":80,"category":13},"e73c041b-852b-44c3-85aa-0f1e2e5848e3","ai-agents-hit-chaos-mode-claude-code-openclaw-zh","Claude Code＋OpenClaw 讓 AI 代理失控升溫","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780160576178-yqcs.png","2026-05-30T17:02:25.725767+00:00",[82,87,92,97,102,107,112,117,122,127],{"id":83,"slug":84,"title":85,"created_at":86},"4ae1e197-1d3d-4233-8733-eafe9cb6438b","claude-now-uses-your-pc-to-finish-tasks-zh","Claude 開始幫你操作電腦","2026-03-26T07:20:48.457387+00:00",{"id":88,"slug":89,"title":90,"created_at":91},"5bede67f-e21c-413d-9ab8-54a3c3d26227","googles-2026-ai-agent-report-decoded-zh","Google 2026 AI Agent 報告解讀","2026-03-26T11:15:22.651956+00:00",{"id":93,"slug":94,"title":95,"created_at":96},"2987d097-563f-46c7-b76f-b558d8ef7c2b","kimi-k25-review-stronger-still-not-legend-zh","Kimi K2.5 評測：更強，但還不是神作","2026-03-27T07:15:55.277513+00:00",{"id":98,"slug":99,"title":100,"created_at":101},"95c9053b-e3f4-4cb5-aace-5c54f4c9e044","claude-code-controls-mac-desktop-zh","Claude Code 也能操控 Mac 了","2026-03-28T03:01:58.58121+00:00",{"id":103,"slug":104,"title":105,"created_at":106},"dc58e153-e3a8-4c06-9b96-1aa64eabbf5f","cloudflare-100x-faster-ai-agent-sandbox-zh","Cloudflare 的 AI 沙箱跑超快","2026-03-28T03:09:44.142236+00:00",{"id":108,"slug":109,"title":110,"created_at":111},"1c8afc56-253f-47a2-979f-1065ff072f2a","openai-backs-isara-agent-swarm-bet-zh","OpenAI 挺 Isara 的 agent swarm …","2026-03-28T03:15:27.513155+00:00",{"id":113,"slug":114,"title":115,"created_at":116},"7379b422-576e-45df-ad5a-d57a0d9dd467","openai-plan-automated-ai-researcher-zh","OpenAI 想做自動化 AI 研究員","2026-03-28T03:17:42.090548+00:00",{"id":118,"slug":119,"title":120,"created_at":121},"48c9889e-86df-450b-a356-e4a4b7c83c5b","harness-engineering-ai-agent-reliability-2026-zh","駕馭工程：從「馬具」到「作業系統」，AI Agent 可靠性的終極密碼","2026-03-31T06:42:53.556721+00:00",{"id":123,"slug":124,"title":125,"created_at":126},"96d8e8c8-1edd-475d-9145-b1e7a1b02b65","mcp-explained-from-prompts-to-production-zh","MCP 怎麼把提示詞變工作流","2026-04-01T09:24:39.321274+00:00",{"id":128,"slug":129,"title":130,"created_at":131},"f2ca7720-b471-4ce5-9336-2a9ac2a876fd","amazon-bedrock-agents-multi-agent-workflows-zh","Amazon Bedrock Agents 進入多代理工作流","2026-04-01T09:30:29.945429+00:00"]