[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-retrieval-augmented-generation-explained-zh":3,"article-related-retrieval-augmented-generation-explained-zh":31,"series-research-92b08177-95c6-4743-89a9-f0314e6359c9":82},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":24,"views":28,"created_at":29,"published_at":30,"topic_cluster_id":11},"92b08177-95c6-4743-89a9-f0314e6359c9","retrieval-augmented-generation-explained-zh","RAG 是什麼？白話看懂","\u003Cp data-speakable=\"summary\">\u003Ca href=\"\u002Ftag\u002Frag\">RAG\u003C\u002Fa> 讓大型語言模型先查文件，再根據資料回答，能降低幻覺，也方便加上引用來源。\u003C\u002Fp>\u003Cp>說真的，這招很實用。\u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> 很會講，但也很會唬爛。你丟給它一個問題，它可能講得像真的，結果細節全錯。\u003C\u002Fp>\u003Cp>RAG，中文常叫檢索增強生成，就是把「先查資料」塞進回答流程。它不是讓模型變聰明，而是讓模型先看資料再開口。這對客服、內部知識庫、法務、醫療都很有用。\u003C\u002Fp>\u003Cp>這篇就用白話拆給你看。你會看到它怎麼運作、為\u003Ca href=\"\u002Fnews\u002Fwhy-claude-opus-4-7-is-right-for-copilot-now-zh\">什麼\u003C\u002Fa>大家愛用、又在哪些地方會翻車。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>項目\u003C\u002Fth>\u003Cth>數字\u003C\u002Fth>\u003Cth>意義\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>RAG 相關論文\u003C\u002Ftd>\u003Ctd>2020\u003C\u002Ftd>\u003Ctd>這個做法在學術界正式成形。\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Google Bard 錯誤事件\u003C\u002Ftd>\u003Ctd>約 1000 億美元\u003C\u002Ftd>\u003Ctd>一次答錯，市場反應很兇。\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Retro 模型規模\u003C\u002Ftd>\u003Ctd>約 25 倍更小\u003C\u002Ftd>\u003Ctd>檢索式設計可省很多參數。\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>資料形式\u003C\u002Ftd>\u003Ctd>Embeddings\u003C\u002Ftd>\u003Ctd>文字常先轉成向量再做搜尋。\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>RAG 為什麼會紅\u003C\u002Fh2>\u003Cp>LLM 的問題很直接。它不是資料庫。它記得訓練時看過的模式，卻不保證知道昨天更新的政策。你如果拿它來回答公司規章，錯一條就很麻煩。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778083864937-hhfs.png\" alt=\"RAG 是什麼？白話看懂\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>RAG 的解法很土，但很有效。先去文件、網站、PDF、資料庫找相關內容，再把找到的片段丟給模型生成答案。模型就不是憑空猜，而是照著材料寫。\u003C\u002Fp>\u003Cp>這也是為\u003Ca href=\"\u002Fnews\u002Fwhy-ai-leaders-are-changing-their-jobs-message-zh\">什麼\u003C\u002Fa>很多團隊先做 RAG，再想微調。因為 retrain 一次很貴，文件更新卻很快。你不會想為了改一份 FAQ，就重跑整個模型訓練流程。\u003C\u002Fp>\u003Cul>\u003Cli>降低對舊訓練資料的依賴。\u003C\u002Fli>\u003Cli>可把引用來源一起帶出來。\u003C\u002Fli>\u003Cli>不用每次改文件就重訓模型。\u003C\u002Fli>\u003Cli>可接 PDF、內網文件、網頁與資料庫。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>RAG 的流程怎麼跑\u003C\u002Fh2>\u003Cp>講白了，RAG 就是兩段式。第一段是檢索。系統先把文件切成 chunk，轉成 embeddings，存進向量資料庫。第二段是生成。使用者問問題時，系統先找最相關的片段，再交給 LLM 回答。\u003C\u002Fp>\u003Cp>這裡每一步都可能出包。chunk 切太大，搜尋不準。切太小，脈絡會斷。retriever 找到的資料如果不夠準，模型就會拿錯材料做回答。\u003C\u002Fp>\u003Cp>所以很多產品不是只靠向量搜尋。它們會混合 sparse search、dense retrieval，還會加 reranking。因為真正上線時，最怕不是找不到，而是找錯。\u003C\u002Fp>\u003Cblockquote>“RAG is a way of improving LLM performance, in essence by blending the LLM process with a web search or other document look-up process to help LLMs stick to the facts.” — Ars Technica\u003C\u002Fblockquote>\u003Cp>Wikipedia 也提到，實務系統常加 query expansion、memory、rerank。這些不是裝飾，是補洞。因為純向量搜尋很常抓到「差不多」的段落，不一定是最有用的段落。\u003C\u002Fp>\u003Cp>你可以把 RAG 想成考試作弊版的開書考。模型不是背答案，而是先翻書，再寫出看起來合理的內容。差別在於，書翻錯了，答案還是會錯。\u003C\u002Fp>\u003Ch2>RAG 最適合哪些場景\u003C\u002Fh2>\u003Cp>如果資料會一直變，RAG 就很香。像客服中心、產品文件、法規查詢、公司內部知識庫，這些地方都需要最新內容。模型靠訓練記憶很難跟上。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778083857361-9xg4.png\" alt=\"RAG 是什麼？白話看懂\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>另一種適合的場景，是你需要交代來源。像法務、醫療、金融，使用者不只想要答案，還想看你根據哪份文件講的。這時候 citations 很重要，不然誰敢直接信。\u003C\u002Fp>\u003Cp>但別把它想太神。RAG 只能讓模型更接近來源，不代表它一定懂上下文。如果你餵進去的資料本身就亂，模型還是可能一本正經地講錯話。\u003C\u002Fp>\u003Cul>\u003Cli>企業知識助理。\u003C\u002Fli>\u003Cli>客服機器人。\u003C\u002Fli>\u003Cli>法規與合約查詢。\u003C\u002Fli>\u003Cli>醫療與研究摘要。\u003C\u002Fli>\u003Cli>電商商品與庫存問答。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>RAG 也有不少坑\u003C\u002Fh2>\u003Cp>第一個坑是檢索錯。你找到了文件，不代表找到對的段落。第二個坑是生成亂解讀。模型看到一段文字，可能會把說明文當結論，然後直接寫歪。\u003C\u002Fp>\u003Cp>第三個坑是 prompt stuffing。很多系統把檢索結果塞到問題前面，希望模型優先看見。這招有用，但也很脆弱。順序、格式、截斷長度，都會影響答案品質。\u003C\u002Fp>\u003Cp>第四個坑是評估難。你很難只看一個準確率，就知道整條管線有沒有問題。因為檢索、排序、生成，三段都會影響結果。\u003C\u002Fp>\u003Cul>\u003Cli>檢索準，不代表答案準。\u003C\u002Fli>\u003Cli>引用有了，不代表內容對。\u003C\u002Fli>\u003Cli>chunk 切法會影響召回率。\u003C\u002Fli>\u003Cli>reranking 常常比模型本身更重要。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>數字怎麼看這件事\u003C\u002Fh2>\u003Cp>Wikipedia 提到幾個很有感的數字。\u003Ca href=\"\u002Ftag\u002Fgoogle\">Google\u003C\u002Fa> Bard 曾因 JWST 錯誤回答，引發約 1000 億美元等級的市值波動。這種錯法很貴，因為大家對 AI 失誤的容忍度很低。\u003C\u002Fp>\u003Cp>另一邊，Retro 類型的設計顯示，檢索式架構可以用更小的模型做出接近的表現。文中提到的規模差距大約是 25 倍。這代表資料查詢和模型參數，不一定要硬拚。\u003C\u002Fp>\u003Cp>但有個重點。Retro 是從設計階段就把 retrieval 放進去。RAG 則是比較像後掛式方案。前者整合更深，後者更容易接到現有系統。\u003C\u002Fp>\u003Cul>\u003Cli>RAG 在 2020 年左右進入主流討論。\u003C\u002Fli>\u003Cli>Google Bard 錯答事件牽動約 1000 億美元市值。\u003C\u002Fli>\u003Cli>Retro 類架構可把模型做得小很多。\u003C\u002Fli>\u003Cli>RAG 比較適合快速接到既有產品。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>RAG 背後的產業脈絡\u003C\u002Fh2>\u003Cp>我覺得 RAG 會紅，不是因為它高深，而是因為它夠務實。企業不想每週重訓模型。企業想要的是：文件更新後，系統隔天就能查到。\u003C\u002Fp>\u003Cp>這也是為\u003Ca href=\"\u002Fnews\u002Fwhy-jensen-huang-is-wrong-about-ai-creating-jobs-zh\">什麼\u003C\u002Fa>向量資料庫、embedding \u003Ca href=\"\u002Ftag\u002Fapi\">API\u003C\u002Fa>、reranker 這幾年一起爆。它們不是單獨在賣產品，而是在補 LLM 的缺口。你可以把它看成 AI 應用的基礎設施。\u003C\u002Fp>\u003Cp>早期大家很愛講模型大小。現在很多團隊更在意資料管線。因為真正在意答案的人，不會問你模型有幾億參數，只會問你答得對不對，有沒有來源。\u003C\u002Fp>\u003Cp>如果你要做一個真的能上線的 AI 助理，RAG 幾乎是基本功。沒有它，你很容易做出一個很會聊天、但一查就破功的系統。\u003C\u002Fp>\u003Ch2>接下來怎麼做\u003C\u002Fh2>\u003Cp>如果你正在評估 RAG，先別急著看 demo。先看它抓什麼資料，chunk 怎麼切，rerank 有沒有做，引用能不能回到原文。這些細節比模型名字更重要。\u003C\u002Fp>\u003Cp>我會建議你先拿一組真實問題測。找 20 到 50 題就夠。看檢索命中率、答案正確率、引用可追溯性，再看延遲。很多系統 demo 很漂亮，上線後就開始漏氣。\u003C\u002Fp>\u003Cp>說白了，RAG 不是萬靈丹。它是把 LLM 拉回資料現場的一種方法。做得好，它很穩；做不好，它只是把錯誤包裝得更像真的。\u003C\u002Fp>\u003Cp>如果你要下一步，我建議先從一個小知識庫開始。先把檢索、引用、評估三件事做好，再談更複雜的 \u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa>、工具調用和多輪記憶。\u003C\u002Fp>","RAG 讓 LLM 先查文件再回答，能減少幻覺、補上引用，也更適合企業知識庫與即時資料。","en.wikipedia.org","https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FRetrieval-augmented_generation",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778083864937-hhfs.png","research","zh","fcba2ffc-9687-40b6-b58c-a36dc8b4926b",[17,18,19,20,21,22,23],"RAG","檢索增強生成","LLM","向量資料庫","Embeddings","AI 助理","幻覺",[25,26,27],"RAG 先查資料再回答，能降低 LLM 幻覺。","真正的品質差異，常出在檢索、chunk 與 rerank。","RAG 很適合企業知識庫、客服與需要引用的場景。",7,"2026-05-06T16:10:33.474941+00:00","2026-05-06T16:10:33.458+00:00",{"tags":32,"relatedLang":41,"relatedPosts":45},[33,34,36,38,40],{"name":18,"slug":18},{"name":17,"slug":35},"rag",{"name":19,"slug":37},"llm",{"name":39,"slug":39},"embeddings",{"name":20,"slug":20},{"id":15,"slug":42,"title":43,"language":44},"retrieval-augmented-generation-explained-en","Retrieval-Augmented Generation, Explained Simply","en",[46,52,58,64,70,76],{"id":47,"slug":48,"title":49,"cover_image":50,"image_url":50,"created_at":51,"category":13},"923bb0c4-95f3-49a0-8e01-5cdd6bcd2e32","fixing-llm-forgetting-es-fine-tuning-zh","ES 微調忘記問題有解了","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780604276240-arx4.png","2026-06-04T20:17:25.720929+00:00",{"id":53,"slug":54,"title":55,"cover_image":56,"image_url":56,"created_at":57,"category":13},"42510df4-4692-44c6-a45a-c82a4a86b646","tls-turns-insecure-links-into-encrypted-sessions-zh","TLS 把明文連線變成加密會話","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780596207456-9or4.png","2026-06-04T18:02:50.988357+00:00",{"id":59,"slug":60,"title":61,"cover_image":62,"image_url":62,"created_at":63,"category":13},"4fa896da-9616-425a-92bc-c1d7d5861ff9","streamma-multi-agent-reasoning-latency-zh","StreamMA 讓多代理推理邊想邊傳","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780554786134-1w1d.png","2026-06-04T06:32:32.769423+00:00",{"id":65,"slug":66,"title":67,"cover_image":68,"image_url":68,"created_at":69,"category":13},"f31f51ba-4445-4e43-9bda-31e70f53d42b","audio-language-models-arbitration-reversals-zh","音訊模型不是聽不懂","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780553877373-ux95.png","2026-06-04T06:17:27.890159+00:00",{"id":71,"slug":72,"title":73,"cover_image":74,"image_url":74,"created_at":75,"category":13},"447ac6c9-477b-45c8-bec2-ff94dc4cf5d4","stride-training-data-attribution-sparse-recovery-zh","STRIDE 讓訓練資料歸因快 13 倍","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780552979370-897a.png","2026-06-04T06:02:29.149166+00:00",{"id":77,"slug":78,"title":79,"cover_image":80,"image_url":80,"created_at":81,"category":13},"33c9a55c-a8c0-4367-b742-f4567d1e98e3","mathematicians-warn-ai-could-distort-math-zh","數學界警告 AI 會扭曲證明標準","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780504386035-080l.png","2026-06-03T16:32:29.415063+00:00",[83,88,93,98,103,108,113,118,123,128],{"id":84,"slug":85,"title":86,"created_at":87},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":89,"slug":90,"title":91,"created_at":92},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":94,"slug":95,"title":96,"created_at":97},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":114,"slug":115,"title":116,"created_at":117},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":124,"slug":125,"title":126,"created_at":127},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":129,"slug":130,"title":131,"created_at":132},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]