[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-rag-precision-tuning-hurts-retrieval-accuracy-zh":3,"article-related-rag-precision-tuning-hurts-retrieval-accuracy-zh":34,"series-research-f138a001-0992-4842-9a06-325d30fc6004":79},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":26,"views":31,"created_at":32,"published_at":33,"topic_cluster_id":11},"f138a001-0992-4842-9a06-325d30fc6004","rag-precision-tuning-hurts-retrieval-accuracy-zh","RAG 精準調校反而害檢索","\u003Cp data-speakable=\"summary\">Redis 的研究指出，\u003Ca href=\"\u002Ftag\u002Frag\">RAG\u003C\u002Fa> embed\u003Ca href=\"\u002Fnews\u002Fwhy-ai-coding-agents-need-an-architecture-compiler-zh\">ding\u003C\u002Fa> 若只追求 precision，檢索準確率可能掉到 40%。\u003C\u002Fp>\u003Cp>說真的，這結果很刺耳。很多團隊都想把 RAG 調得更準，結果可能把自己調進坑裡。\u003C\u002Fp>\u003Cp>這篇在講一件很實際的事。\u003Ca href=\"https:\u002F\u002Fredis.io\u002F\" target=\"_blank\" rel=\"noopener\">Redis\u003C\u002Fa> 的研究筆記提醒，精準度拉高，不代表檢索就更好。對 \u003Ca href=\"https:\u002F\u002Fwww.langchain.com\u002F\" target=\"_blank\" rel=\"noopener\">LangChain\u003C\u002Fa> 這類 agentic pipeline 來說，前面檢索一歪，後面整串都會歪。\u003C\u002Fp>\u003Cp>先看數字。研究提到，檢索準確率最多會掉 40%。這不是小誤差，是會直接改變產品行為的那種。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>指標\u003C\u002Fth>\u003Cth>數值\u003C\u002Fth>\u003Cth>意思\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>檢索準確率下滑\u003C\u002Ftd>\u003Ctd>最高 40%\u003C\u002Ftd>\u003Ctd>代表調校後，實際找回正確資料的能力可能明顯變差\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>優化目標\u003C\u002Ftd>\u003Ctd>Precision\u003C\u002Ftd>\u003Ctd>會讓相似匹配更嚴，但也可能縮小可檢索範圍\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>風險區\u003C\u002Ftd>\u003Ctd>Agentic pipelines\u003C\u002Ftd>\u003Ctd>代理流程很吃前段檢索品質，前面錯了後面很難救\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>常見後果\u003C\u002Ftd>\u003Ctd>Recall 下降\u003C\u002Ftd>\u003Ctd>真正能回答問題的文件，可能被排除在外\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>為什麼只追 precision 會出事\u003C\u002Fh2>\u003Cp>RAG 的核心，不是找最像的句子而已。它要找的是，對答案真的有用的資料。這兩件事常常不是同一件事。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778055657010-r5a0.png\" alt=\"RAG 精準調校反而害檢索\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>你把 embedding 調得太偏 precision，模型會變得很挑。它可能更愛抓近似片段，也更容易把邊界案例、補充文件、背景脈絡排掉。對使用者來說，結果就是少了關鍵上下文。\u003C\u002Fp>\u003Cp>講白了，檢索不是單一分數遊戲。你在 benchmark 上拿到漂亮數字，不代表真實工作流會更順。客服問答、內部知識庫、研究助理，最怕的就是「看起來像對的」，但真正答案沒被撈出來。\u003C\u002Fp>\u003Cul>\u003Cli>Precision 高，不代表 Recall 也高。\u003C\u002Fli>\u003Cli>候選文件變少，漏掉答案的機率就上升。\u003C\u002Fli>\u003Cli>Agent 先吃到爛上下文，後面工具全跟著失真。\u003C\u002Fli>\u003Cli>企業查詢很雜，最有用的文件常常不像問題本身。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這也是我覺得最麻煩的地方。團隊常常先看一個數字，然後就覺得自己做對了。可是在真實場景，錯的不是模型分數，是整個產品體驗。\u003C\u002Fp>\u003Ch2>Redis 在提醒什麼\u003C\u002Fh2>\u003Cp>\u003Ca href=\"https:\u002F\u002Fredis.io\u002F\" target=\"_blank\" rel=\"noopener\">Redis\u003C\u002Fa> 這幾年一直往 \u003Ca href=\"\u002Ftag\u002Fai-\">AI 基礎設施\u003C\u002Fa>走。它做 vector search、cache、\u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa> memory，都很貼近實戰。這次的提醒很直白：embedding 層的 precision 變好，不等於 production 裡的 retrieval 變好。\u003C\u002Fp>\u003Cp>這句話對做 agent 的團隊特別重要。因為 agent 的第一步，通常就是先抓資料。前面抓到的 context 如果太窄，或太偏近似樣本，agent 就會帶著偏差做決策。\u003C\u002Fp>\u003Cp>你可能會想問，那是不是把 precision 放掉就好？也不是。問題不是 precision 本身，而是你把它當成唯一目標。RAG 需要的是平衡，不是單點最優。\u003C\u002Fp>\u003Cblockquote>“There is no free lunch in machine learning,” said \u003Ca href=\"https:\u002F\u002Ftwitter.com\u002Fkarpathy\" target=\"_blank\" rel=\"noopener\">Andrej Karpathy\u003C\u002Fa>.\u003C\u002Fblockquote>\u003Cp>這句老話放在這裡很貼。你在一邊拿到好看分數，通常要在另一邊付代價。RAG 裡常見的代價，就是 Recall、grounding，還有可用上下文的廣度。\u003C\u002Fp>\u003Cp>如果你的產品是知識助理，這種代價會很痛。使用者不會在乎你的 embedding loss 怎麼降，他只會在乎「為什麼明明有文件，系統卻找不到」。\u003C\u002Fp>\u003Ch2>跟常見 RAG 做法比起來差在哪\u003C\u002Fh2>\u003Cp>多數團隊做 RAG，會先看 chunking、reranking、embedding model，再看 prompt。這個順序沒錯，但很多人會誤以為只要把檢索模型調更準，整體就會更好。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778055670852-qn3f.png\" alt=\"RAG 精準調校反而害檢索\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>Redis 這份研究的重點，就是打臉這種直覺。你在實驗室裡把一個指標拉高，不代表線上體驗會一起上去。反過來說，還可能把整條鏈弄壞。\u003C\u002Fp>\u003Cp>我整理成幾個常見路線，差異很明顯：\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>Precision-first：\u003C\u002Fstrong> 匹配更緊，候選更少，漏掉有用資料的風險更高。\u003C\u002Fli>\u003Cli>\u003Cstrong>Recall-aware：\u003C\u002Fstrong> 找回更多上下文，但後面 rerank 和 filter 要更認真。\u003C\u002Fli>\u003Cli>\u003Cstrong>Production-first：\u003C\u002Fstrong> 看真實 query、人工抽查、再搭配線上 A\u002FB test。\u003C\u002Fli>\u003Cli>\u003Cstrong>Agent-first：\u003C\u002Fstrong> 先看檢索是否能支撐任務，不只看 similarity 分數。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這裡還有一個很現實的問題。很多團隊拿 synthetic benchmark 當真相，但真實使用者的問題很髒。有人會打半句話，有人會混中英，有人會問很冷門的例外情況。\u003C\u002Fp>\u003Cp>所以，真正該比的不是誰的分數漂亮，而是誰比較少漏答案。這一點，\u003Ca href=\"https:\u002F\u002Fwww.pinecone.io\u002F\" target=\"_blank\" rel=\"noopener\">Pinecone\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fweaviate.io\u002F\" target=\"_blank\" rel=\"noopener\">Weaviate\u003C\u002Fa> 這類向量資料庫幫得上忙，但它們救不了錯的優化方向。\u003C\u002Fp>\u003Ch2>這件事放到產業脈絡裡看\u003C\u002Fh2>\u003Cp>RAG 現在已經不是 demo 技術了。很多公司拿它做客服、法務\u003Ca href=\"\u002Fnews\u002Fllm-overview-manipulation-biases-zh\">搜尋\u003C\u002Fa>、銷售知識庫，甚至內部 agent。這些場景共通點很簡單：資料多，問題雜，錯一次就很煩。\u003C\u002Fp>\u003Cp>也因為這樣，檢索層的微小變動，會比一般人想的更敏感。你把模型調得太保守，系統就只會撈到最像的文件。你把模型調得太寬，又會把垃圾上下文塞進去。\u003C\u002Fp>\u003Cp>這就是 RAG 的老問題。不是找不到模型，而是找不到剛剛好的平衡點。很多時候，chunk 策略、reranker、metadata filter，甚至資料清洗，影響都比單純換 embedding 還大。\u003C\u002Fp>\u003Cp>再看 agentic pipeline，就更明顯了。\u003Ca href=\"\u002Fnews\u002Fagentic-ai-moving-past-rag-knowledge-layer-zh\">Agen\u003C\u002Fa>t 不是只回答一句話而已。它可能要查資料、比對條件、再呼叫 \u003Ca href=\"\u002Ftag\u002Fapi\">API\u003C\u002Fa>。前面檢索若偏掉，後面每一步都會跟著偏。\u003C\u002Fp>\u003Cp>所以我會建議團隊把測試重點換掉。不要只問「precision 有沒有變高」，而是問「正確文件有沒有更常被找回」。這兩題差很多。\u003C\u002Fp>\u003Ch2>團隊接下來該怎麼做\u003C\u002Fh2>\u003Cp>第一步，別只看單一指標。Precision、Recall、MRR、nDCG，最好一起看。只盯一個數字，很容易把系統調歪。\u003C\u002Fp>\u003Cp>第二步，拿真實 query 測。不要只用乾淨的測試集。要把使用者真的會丟的問題拿進來，包含模糊問法、短句、錯字、混合語言。\u003C\u002Fp>\u003Cp>第三步，檢查下游任務。你的 RAG 是拿來回答問題，還是拿來餵 agent 做決策？如果是後者，檢索品質的容錯率更低。\u003C\u002Fp>\u003Cp>第四步，別迷信 embedding。chunking、reranking、metadata、query rewrite，常常比你想像中更有用。很多時候，修資料比修模型便宜，也更快。\u003C\u002Fp>\u003Cp>如果你現在在調 RAG，我會直接問一句：你要的是更像，還是更對？兩者不是同一件事。搞清楚這點，才不會把系統越調越窄。\u003C\u002Fp>\u003Cp>我的預測很直接。接下來一年，更多團隊會發現，RAG 的瓶頸不在模型多大，而在檢索策略有沒有配對好任務。先把 Recall、真實任務成功率、agent 完成率一起納入，再談 precision，會比較實在。\u003C\u002Fp>","Redis 研究指出，RAG embedding 若只追求 precision，檢索準確率可能掉 40%，還會拖累 agentic pipeline。","venturebeat.com","https:\u002F\u002Fventurebeat.com\u002Fdata\u002Frag-precision-tuning-can-quietly-cut-retrieval-accuracy-by-40-putting-agentic-pipelines-at-risk",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778055657010-r5a0.png","research","zh","ea29007f-e989-470f-8968-68b7111caa88",[17,18,19,20,21,22,23,24,25],"RAG","retrieval accuracy","precision tuning","embedding","agentic pipelines","Redis","LangChain","Recall","vector search",[27,28,29,30],"只追 precision，可能讓 RAG 檢索準確率掉到 40%。","RAG 的目標是找對資料，不是只找最像的資料。","Agentic pipeline 對前段檢索很敏感，錯一次會一路傳下去。","實務上要同時看 precision、recall 和真實 query 表現。",5,"2026-05-06T08:20:36.321486+00:00","2026-05-06T08:20:36.173+00:00",{"tags":35,"relatedLang":38,"relatedPosts":42},[36],{"name":17,"slug":37},"rag",{"id":15,"slug":39,"title":40,"language":41},"rag-precision-tuning-hurts-retrieval-accuracy-en","RAG precision tuning can hurt retrieval accuracy","en",[43,49,55,61,67,73],{"id":44,"slug":45,"title":46,"cover_image":47,"image_url":47,"created_at":48,"category":13},"d6f25c66-98f5-4971-8d1d-487fb5fe1881","claude-sonnet-46-sre-benchmark-rootly-zh","Claude Sonnet 4.6 對上 SRE 工作更接近 Opus","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782750780131-xelc.png","2026-06-29T16:32:28.457338+00:00",{"id":50,"slug":51,"title":52,"cover_image":53,"image_url":53,"created_at":54,"category":13},"29321237-6e9a-4271-b9fb-e43e798d5dff","glm-52-beats-claude-semgrep-idor-test-zh","GLM 5.2 在 IDOR 測試贏過 Claude","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782749882713-7i5n.png","2026-06-29T16:17:31.911487+00:00",{"id":56,"slug":57,"title":58,"cover_image":59,"image_url":59,"created_at":60,"category":13},"5172bfc7-34c8-4477-a177-ffa615497ecf","opd-distillation-skills-without-bruteforce-rl-zh","OPD 讓你把技能蒸餾進模型","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782730101413-5wjx.png","2026-06-29T10:47:57.457072+00:00",{"id":62,"slug":63,"title":64,"cover_image":65,"image_url":65,"created_at":66,"category":13},"6f5be102-5764-44f1-ab3f-722fc5c32c23","google-deepmind-turns-science-into-tools-zh","Google DeepMind把AI變研究工具","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782721105628-g4op.png","2026-06-29T08:17:57.716568+00:00",{"id":68,"slug":69,"title":70,"cover_image":71,"image_url":71,"created_at":72,"category":13},"c649adb7-c8ae-4ade-a092-2c0d53beeb71","measuring-llm-behavior-portability-zh","LLM 行為不一定可移植","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782717472977-na8g.png","2026-06-29T07:17:29.597679+00:00",{"id":74,"slug":75,"title":76,"cover_image":77,"image_url":77,"created_at":78,"category":13},"637c3016-e364-4bfe-904e-5e60a18ed678","prompt-injection-ai-security-problem-zh","Prompt injection 已是 AI 資安問題","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782716580916-m1nm.png","2026-06-29T07:02:36.173749+00:00",[80,85,90,95,100,105,110,115,120,125],{"id":81,"slug":82,"title":83,"created_at":84},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":86,"slug":87,"title":88,"created_at":89},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":91,"slug":92,"title":93,"created_at":94},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":96,"slug":97,"title":98,"created_at":99},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":101,"slug":102,"title":103,"created_at":104},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":106,"slug":107,"title":108,"created_at":109},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":111,"slug":112,"title":113,"created_at":114},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":116,"slug":117,"title":118,"created_at":119},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":121,"slug":122,"title":123,"created_at":124},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":126,"slug":127,"title":128,"created_at":129},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]