[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-what-rag-is-and-why-it-matters-zh":3,"article-related-what-rag-is-and-why-it-matters-zh":32,"series-research-254c9611-aa49-4f96-be03-77c9c2f8007b":82},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":25,"views":29,"created_at":30,"published_at":31,"topic_cluster_id":11},"254c9611-aa49-4f96-be03-77c9c2f8007b","what-rag-is-and-why-it-matters-zh","RAG 是什麼，為何重要","\u003Cp data-speakable=\"summary\">RAG 讓 \u003Ca href=\"\u002Fnews\u002Fhow-to-build-vintage-llm-testbed-5-steps-zh\">LLM\u003C\u002Fa> 先查外部可信資料，再生成答案。\u003C\u002Fp>\u003Cp>說白了，它是在模型回答前先查資料。這比只靠記憶亂猜，可靠很多。\u003C\u002Fp>\u003Cp>\u003Ca href=\"https:\u002F\u002Faws.amazon.com\u002Fwhat-is\u002Fretrieval-augmented-generation\u002F\" target=\"_blank\" rel=\"noopener\">AWS\u003C\u002Fa> 把 RAG 定義成 Retrieval-Augmented Generation。它讓 \u003Ca href=\"https:\u002F\u002Fopenai.com\u002F\" target=\"_blank\" rel=\"noopener\">GPT\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fclaude\" target=\"_blank\" rel=\"noopener\">Claude\u003C\u002Fa> 這類 \u003Ca href=\"https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FLarge_language_model\" target=\"_blank\" rel=\"noopener\">LLM\u003C\u002Fa>，先從外部知識庫找資料，再組答案。這件事很實際。因為模型訓練資料是固定的，但政策、價格、文件、新聞都會變。\u003C\u002Fp>\u003Cp>你可能會想問，這不就是搜尋嗎？不是。搜尋只找資料。RAG 會把\u003Ca href=\"\u002Fnews\u002Fai-finds-nine-year-linux-kernel-zero-day-zh\">找到\u003C\u002Fa>的資料塞回 prompt，讓模型根據資料寫答案。講白了，就是先翻文件，再開口。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>RAG 概念\u003C\u002Fth>\u003Cth>AWS 的說法\u003C\u002Fth>\u003Cth>為什麼重要\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>訓練資料\u003C\u002Ftd>\u003Ctd>靜態，帶有時間限制\u003C\u002Ftd>\u003Ctd>可能漏掉最新事實\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Retrieval\u003C\u002Ftd>\u003Ctd>從外部知識來源抓資料\u003C\u002Ftd>\u003Ctd>補進新鮮且具體的上下文\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Amazon Kendra Retrieve API\u003C\u002Ftd>\u003Ctd>最多 100 段 passages\u003C\u002Ftd>\u003Ctd>給模型更多可用來源\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Passage 大小\u003C\u002Ftd>\u003Ctd>每段最多 200 token words\u003C\u002Ftd>\u003Ctd>讓上下文保持精簡\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>RAG 為什麼會冒出來\u003C\u002Fh2>\u003Cp>\u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> 很會寫字，這點沒人否認。但它們也很會一本正經地亂講。AWS 提到幾個常見問題：模型會編答案、講得太空、引用不可靠來源，還會把不同文件裡的名詞混在一起。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1777958450449-qp57.png\" alt=\"RAG 是什麼，為何重要\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這在客服、內部知識庫、企業搜尋裡很致命。使用者問的是今年的福利政策，模型卻吐出去年版本。這不是文風問題，這是信任問題。\u003C\u002Fp>\u003Cp>RAG 的做法很直接。先找資料，再生成答案。模型還是負責寫，但事實來源改成組織自己選的資料庫。這樣至少知道它是根據哪份文件在講。\u003C\u002Fp>\u003Cul>\u003Cli>不用為每個內部場景重訓整個 foundation model。\u003C\u002Fli>\u003Cli>可以抓最新文件、API 資料、公告或紀錄。\u003C\u002Fli>\u003Cli>開發者能控制模型能引用什麼。\u003C\u002Fli>\u003Cli>也能先檢查權限，再把資料送進 prompt。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>RAG 的實際流程\u003C\u002Fh2>\u003Cp>一個 RAG 系統通常從外部資料開始。可能是文件、\u003Ca href=\"\u002Ftag\u002Fapi\">API\u003C\u002Fa>、資料庫，或 \u003Ca href=\"\u002Ftag\u002Fgithub\">GitHub\u003C\u002Fa> repo。這些資料會先切塊，再轉成 embeddings，存進 \u003Ca href=\"\u002Ftag\u002Fvector-database\">vector database\u003C\u002Fa>。\u003C\u002Fp>\u003Cp>使用者提問後，query 也會被轉成向量。系統拿它去比對知識庫，挑出最相關的 passages。接著把這些內容放進 prompt，交給 LLM 生成答案。\u003C\u002Fp>\u003Cp>聽起來簡單，維運才是重點。資料一更新，embeddings 也要更新。你如果放著不管，retrieval 會撈到舊內容。那種錯法很陰險，因為答案看起來還是很順。\u003C\u002Fp>\u003Cblockquote>“Retrieval-augmented generation is the process of optimizing the output of a large language model, so it references an authoritative knowledge base outside of its training data sources before generating a response.” — \u003Ca href=\"https:\u002F\u002Faws.amazon.com\u002Fwhat-is\u002Fretrieval-augmented-generation\u002F\" target=\"_blank\" rel=\"noopener\">Amazon Web Services\u003C\u002Fa>\u003C\u002Fblockquote>\u003Ch2>RAG 和 semantic search 差在哪\u003C\u002Fh2>\u003Cp>AWS 把兩者分得很清楚。semantic search 是找資料的引擎。RAG 是完整流程。它先找，再寫。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1777958454861-td46.png\" alt=\"RAG 是什麼，為何重要\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這個差別很重要。搜尋系統解決的是「哪段文字相關」。RAG 解決的是「拿到這段文字後，要怎麼寫成答案」。在企業環境裡，前者常常比後者更難。\u003C\u002Fp>\u003Cp>因為文件很多，而且散在各處。手冊、FAQ、客服紀錄、內部公告，全都可能是來源。這時候 semantic search 會先幫你縮小範圍，減少人工整理成本。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>Keyword search\u003C\u002Fstrong> 快，但容易漏掉換句話說的內容。\u003C\u002Fli>\u003Cli>\u003Cstrong>Semantic search\u003C\u002Fstrong> 找的是語意，不是字面。\u003C\u002Fli>\u003Cli>\u003Cstrong>RAG\u003C\u002Fstrong> 會把找到的內容變成回答。\u003C\u002Fli>\u003Cli>\u003Cstrong>權限控管\u003C\u002Fstrong> 可以先過濾文件，再進模型。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>AWS 提供哪些 RAG 工具\u003C\u002Fh2>\u003Cp>AWS 這邊主打三個產品：\u003Ca href=\"https:\u002F\u002Faws.amazon.com\u002Fbedrock\u002F\" target=\"_blank\" rel=\"noopener\">Amazon Bedrock\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Faws.amazon.com\u002Fkendra\u002F\" target=\"_blank\" rel=\"noopener\">Amazon Kendra\u003C\u002Fa>，還有 \u003Ca href=\"https:\u002F\u002Faws.amazon.com\u002Fsagemaker\u002F\" target=\"_blank\" rel=\"noopener\">Amazon SageMaker JumpStart\u003C\u002Fa>。三者定位不一樣。\u003C\u002Fp>\u003Cp>Bedrock 偏向 managed foundation models，也提供 knowledge base 來做 RAG。Kendra 偏企業搜尋。SageMaker JumpStart 則比較像給團隊自己拼一套 ML 工作流。\u003C\u002Fp>\u003Cp>最具體的數字是 Kendra 的 Retrieve API。它最多可回傳 100 段 passages。每段最多 200 \u003Ca href=\"\u002Ftag\u002Ftoken\">token\u003C\u002Fa> words。這代表 AWS 想讓模型拿到夠多上下文，但又不想把 prompt 塞爆。\u003C\u002Fp>\u003Cp>如果你在選方案，可以這樣看：\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>Amazon Bedrock\u003C\u002Fstrong> 適合想快點上線的人。\u003C\u002Fli>\u003Cli>\u003Cstrong>Amazon Kendra\u003C\u002Fstrong> 適合文件多、權限複雜的企業。\u003C\u002Fli>\u003Cli>\u003Cstrong>Amazon SageMaker JumpStart\u003C\u002Fstrong> 適合想自己組件的人。\u003C\u002Fli>\u003Cli>\u003Cstrong>Retrieval quality\u003C\u002Fstrong> 往往比模型大小更重要。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>背景脈絡：為什麼大家都在談 RAG\u003C\u002Fh2>\u003Cp>RAG 會紅，不是因為它很潮。是因為它很務實。很多團隊不想每次文件一改，就重訓模型。那太貴，也太慢。\u003C\u002Fp>\u003Cp>而且 LLM 的問題一直都在。它會 hallucin\u003Ca href=\"\u002Fnews\u002Fwhy-latent-agents-proves-internalized-debate-zh\">ate\u003C\u002Fa>，會講得很像真的。對消費者問答也許還能混過去。對企業文件、法務內容、產品規格，就很難混。\u003C\u002Fp>\u003Cp>所以現在很多公司先做 RAG，再談 fine-tuning。這個順序很合理。先把資料接好，先讓答案有來源，再想要不要改模型本體。\u003C\u002Fp>\u003Cp>這裡也能看出產業分工。模型供應商負責 LLM。雲端平台負責 retrieval、storage、權限與部署。開發團隊負責資料品質。三邊缺一個，效果都會掉。\u003C\u002Fp>\u003Ch2>接下來該怎麼看 RAG\u003C\u002Fh2>\u003Cp>我覺得，RAG 不是萬靈丹。資料亂、切塊爛、權限沒控好，答案一樣會出包。只是它比直接叫模型瞎答，至少多了一層把關。\u003C\u002Fp>\u003Cp>如果你在做客服機器人、內部知識庫、或文件型產品，RAG 很值得先試。先問自己一件事：你的使用者是不是需要最新、可追溯、來自你自己資料的答案？\u003C\u002Fp>\u003Cp>如果答案是 yes，那就別再只靠純生成。先把 retrieval 做好，再來談模型。這條路很務實，也比較少踩雷。\u003C\u002Fp>","RAG 讓 LLM 先查外部可信資料再回答，能降低幻覺、更新更快，也更適合企業文件與權限控管。","aws.amazon.com","https:\u002F\u002Faws.amazon.com\u002Fwhat-is\u002Fretrieval-augmented-generation\u002F",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1777958450449-qp57.png","research","zh","58c0fcc1-175d-4769-a1d6-0e7ef5eca477",[17,18,19,20,21,22,23,24],"RAG","LLM","Retrieval-Augmented Generation","semantic search","AWS","Amazon Bedrock","Amazon Kendra","Amazon SageMaker JumpStart",[26,27,28],"RAG 先查外部可信資料，再讓 LLM 回答。","它能降低幻覺，也更適合需要最新資料的場景。","RAG 的成敗常常卡在 retrieval、切塊和權限控管。",7,"2026-05-05T05:20:30.928679+00:00","2026-05-05T05:20:30.757+00:00",{"tags":33,"relatedLang":11,"relatedPosts":45},[34,37,39,41,43],{"name":35,"slug":36},"retrieval-augmented generation","retrieval-augmented-generation",{"name":17,"slug":38},"rag",{"name":21,"slug":40},"aws",{"name":18,"slug":42},"llm",{"name":20,"slug":44},"semantic-search",[46,52,58,64,70,76],{"id":47,"slug":48,"title":49,"cover_image":50,"image_url":50,"created_at":51,"category":13},"a4cf24e5-b958-4f91-bdca-2f1a57e81aef","why-benchmark-leaderboards-are-wrong-about-model-logic-zh","為什麼基準排行榜看錯了模型邏輯","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780673571153-x7yi.png","2026-06-05T15:32:23.043639+00:00",{"id":53,"slug":54,"title":55,"cover_image":56,"image_url":56,"created_at":57,"category":13},"4a829d2a-24a3-42dd-8be4-49e5ab35435a","why-prompt-engineering-is-wrong-about-2026-zh","為什麼 2026 年 prompt engineering 錯了","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780661884287-ow45.png","2026-06-05T12:17:19.813402+00:00",{"id":59,"slug":60,"title":61,"cover_image":62,"image_url":62,"created_at":63,"category":13},"52a37532-880d-4261-8f62-2f254d6c592d","spire-evidence-grounded-ai-humanities-zh","SPIRE 讓人文 AI 更重證據","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780647483844-bcuj.png","2026-06-05T08:17:29.603104+00:00",{"id":65,"slug":66,"title":67,"cover_image":68,"image_url":68,"created_at":69,"category":13},"b38c56a6-e7f3-45fb-b100-d37e7b3ed417","reinforcement-aware-distillation-llm-reasoning-zh","強化感知蒸餾，想把推理一起學進去","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780646589500-0me6.png","2026-06-05T08:02:33.908932+00:00",{"id":71,"slug":72,"title":73,"cover_image":74,"image_url":74,"created_at":75,"category":13},"60f7d702-20a7-4cec-9a80-185f072c8dfe","next-token-models-plan-ahead-zh","次詞模型其實會先想一步","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780645684780-roea.png","2026-06-05T07:47:34.35089+00:00",{"id":77,"slug":78,"title":79,"cover_image":80,"image_url":80,"created_at":81,"category":13},"7ec803f7-2658-4c9e-baa6-2b8528407d7f","google-deepmind-co-scientist-researchers-zh","Google DeepMind 對外開放 Co-Scientist","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780636679231-q694.png","2026-06-05T05:17:30.68789+00:00",[83,88,93,98,103,108,113,118,123,128],{"id":84,"slug":85,"title":86,"created_at":87},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":89,"slug":90,"title":91,"created_at":92},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":94,"slug":95,"title":96,"created_at":97},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":114,"slug":115,"title":116,"created_at":117},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":124,"slug":125,"title":126,"created_at":127},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":129,"slug":130,"title":131,"created_at":132},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]