[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-duplicate-prompts-can-lift-accuracy-fast-zh":3,"article-related-duplicate-prompts-can-lift-accuracy-fast-zh":27,"series-research-87335969-ee48-4021-bd27-6731750537ff":80},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":11,"views":24,"created_at":25,"published_at":26,"topic_cluster_id":11},"87335969-ee48-4021-bd27-6731750537ff","duplicate-prompts-can-lift-accuracy-fast-zh","重複提示詞，準確率真的會上升","\u003Cp>把提示詞複製一次，準確率真的可能上去。\u003Ca href=\"https:\u002F\u002Fresearch.google\u002F\" target=\"_blank\" rel=\"noopener\">Google Research\u003C\u002Fa> 的研究看了 7 個閉源模型，搭配 70 組模型與基準測試配對。結果有 47 組變好，NameIndex 甚至從 21.33% 飆到 97.33%。\u003C\u002Fp>\u003Cp>講白了，這招很便宜。你不用改權重，也不用重訓模型。可問題也很現實。它不是萬用解，效果很吃任務類型、提示詞格式，還有模型是在做記憶，還是在做推理。\u003C\u002Fp>\u003Ch2>研究到底測了什麼\u003C\u002Fh2>\u003Cp>這篇研究不是在玩感覺分數。它直接看正確率。研究團隊把每個 prompt 原封不動複製一次，再去測常見基準。像 ARC \u003Ca href=\"\u002Fnews\u002Fchainalysis-agents-crypto-investigations-compliance-zh\">Cha\u003C\u002Fa>llenge、OpenBookQA、GSM8K、MMLU-Pro，還有 MATH，都有被拿來比。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775122500397-vvmh.png\" alt=\"重複提示詞，準確率真的會上升\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這點很重要。很多 AI 報告愛講「看起來比較好」。但產品團隊最在意的是對或錯。只要是客服分流、資料擷取、欄位分類，正確率就是硬指標，不是裝飾品。\u003C\u002Fp>\u003Cp>這次結果裡，有幾個數字很刺眼。不是因為它多炫，而是因為它夠實際，實際到你會想立刻開 A\u002FB test。\u003C\u002Fp>\u003Cul>\u003Cli>70 組配對裡，有 47 組變好。\u003C\u002Fli>\u003Cli>贏的案例裡，沒有顯著退步。\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fdeepmind.google\u002Ftechnologies\u002Fgemini\u002Fflash\u002F\" target=\"_blank\" rel=\"noopener\">Gemini Flash-Lite\u003C\u002Fa> 在 NameIndex 從 21.33% 到 97.33%。\u003C\u002Fli>\u003Cli>多數情況下，延遲幾乎沒變。\u003C\u002Fli>\u003Cli>三次重複有時也會變好，但常常更慢。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>研究還做了 padd\u003Ca href=\"\u002Fnews\u002Fchainalysis-ai-agents-crypto-compliance-zh\">in\u003C\u002Fa>g 檢查。意思是，他們想確認不是單純因為 token 變多，模型就比較會答。這個細節蠻關鍵。因為它把焦點拉回模型怎麼讀上下文，而不是字數灌水。\u003C\u002Fp>\u003Cp>如果你平常也在做 prompt 測試，這種研究很像提醒你一件事。先別急著怪模型爛。先看你的測法有沒有問題。很多時候，問題出在 prompt，不出在模型。\u003C\u002Fp>\u003Ch2>為什麼重複一次會有效\u003C\u002Fh2>\u003Cp>原因沒有想像中玄。LLM 在 prefill 階段會順序處理 token。當 prompt 被再送一次，後半段內容就能參照更完整的 key-value cache。簡單說，模型像是又看了一次同樣資訊，但這次上下文更完整。\u003C\u002Fp>\u003Cp>這對某些任務很有幫助。像是資訊擷取、格式對齊、短答案分類，重複一次常常能把答案拉穩。因為這些任務吃的是回憶、比對、定位，不太吃長鏈推理。\u003C\u002Fp>\u003Cblockquote>“The model is a stochastic parrot.” — Emily M. Bender\u003C\u002Fblockquote>\u003Cp>這句話很多人聽到快爛掉了，但放在這裡還是很準。重複 prompt 不會讓模型突然變聰明。它只是改變模型怎麼看同一份輸入。說白了，就是把同一個 cue 再丟一次，讓模型有第二次對焦機會。\u003C\u002Fp>\u003Cp>這也解釋了，為什麼有些任務效果很大，有些卻幾乎沒差。模型不是在「理解更多」。它比較像在「重新對齊注意力」。如果任務本來就靠記憶，這招就容易中。\u003C\u002Fp>\u003Cp>但如果任務要一步一步推理，效果通常就縮水。因為重複資訊，不等於幫模型想得更好。你只是讓它更常看到同一段字，不是幫它補腦。\u003C\u002Fp>\u003Ch2>哪些任務最吃這一套\u003C\u002Fh2>\u003Cp>研究裡，最明顯的提升集中在記憶型任務。像是 NameIndex 這種長上下文記錄，或是偏向直接回憶的測試，重複 prompt 的效果特別明顯。這種任務很像在考「有沒有看懂題目」，不是在考「會不會解題」。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775122504898-2zj6.png\" alt=\"重複提示詞，準確率真的會上升\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>模型家族也不是只有一家受益。研究提到 \u003Ca href=\"https:\u002F\u002Fopenai.com\u002F\" target=\"_blank\" rel=\"noopener\">OpenAI\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002F\" target=\"_blank\" rel=\"noopener\">Anthropic\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fdeepmind.google\u002F\" target=\"_blank\" rel=\"noopener\">Google DeepMind\u003C\u002Fa>，還有 \u003Ca href=\"https:\u002F\u002Fwww.deepseek.com\u002F\" target=\"_blank\" rel=\"noopener\">DeepSeek\u003C\u002Fa> 的模型，都有不同程度的改善。這代表問題比較像模型行為，而不是單一廠商的實作毛病。\u003C\u002Fp>\u003Cp>如果你想抓重點，可以直接看下面這幾個：\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>記憶型任務\u003C\u002Fstrong>：最容易看到提升。\u003C\u002Fli>\u003Cli>\u003Cstrong>格式抽取\u003C\u002Fstrong>：常常比原版更穩。\u003C\u002Fli>\u003Cli>\u003Cstrong>短分類\u003C\u002Fstrong>：有機會變準。\u003C\u002Fli>\u003Cli>\u003Cstrong>多步推理\u003C\u002Fstrong>：效果常常變小。\u003C\u002Fli>\u003Cli>\u003Cstrong>長輸入場景\u003C\u002Fstrong>：要小心 token 成本。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>像 \u003Ca href=\"https:\u002F\u002Fplatform.openai.com\u002Fdocs\u002Fmodels\u002Fgpt-4o-mini\" target=\"_blank\" rel=\"noopener\">GPT-4o mini\u003C\u002Fa> 在 OpenBookQA 上，也有大約 12 個百分點的提升。\u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fnews\u002Fclaude-3-haiku\" target=\"_blank\" rel=\"noopener\">Claude Haiku\u003C\u002Fa> 則是沒有明顯輸掉，還有不少平手案例。這種結果很像在說，重複 prompt 不是神技，但它確實能把一些邊角任務拉回來。\u003C\u002Fp>\u003Cp>我覺得這對產品團隊很有參考價值。因為很多 AI 功能，根本不是在做深度推理。它們只是做分類、萃取、排序、路由。這些地方，重複一次 prompt，可能比你花兩週調參更快見效。\u003C\u002Fp>\u003Ch2>和其他模型技巧比，這招算便宜嗎\u003C\u002Fh2>\u003Cp>如果拿來跟重訓、微調、RAG 比，重複 prompt 幾乎是最低成本的實驗。你不用碰資料管線，不用改 server，不用重新訓練。很多時候，只要改一行 prompt，就能先看結果。\u003C\u002Fp>\u003Cp>但便宜不等於沒代價。輸入 token 變多，費用就會上去。延遲也可能上升，尤其是長 prompt。你如果本來就把上下文塞到快滿，這招可能直接把成本打爆。\u003C\u002Fp>\u003Cp>下面這種比較，實務上很有感：\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>重複 prompt\u003C\u002Fstrong>：改動小，驗證快。\u003C\u002Fli>\u003Cli>\u003Cstrong>微調模型\u003C\u002Fstrong>：成本高，流程長。\u003C\u002Fli>\u003Cli>\u003Cstrong>RAG\u003C\u002Fstrong>：資料管線複雜，但可控性高。\u003C\u002Fli>\u003Cli>\u003Cstrong>規則引擎\u003C\u002Fstrong>：快，但維護常常很煩。\u003C\u002Fli>\u003Cli>\u003Cstrong>人工後審\u003C\u002Fstrong>：準，但吞吐量低。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>所以這招比較像「先試再說」的工具。不是終局方案。你如果是在做客服工單分類，重複一次 prompt 也許就夠了。你如果是在做醫療摘要或財務推理，那就別太天真，還是得回到資料品質和驗證流程。\u003C\u002Fp>\u003Cp>另外，這篇研究也提醒一件事。模型表現不是單看平均值。你要看任務切得夠不夠細。很多時候，平均分數沒變，但某個子任務直接爆升。這才是產品團隊真正會在意的地方。\u003C\u002Fp>\u003Ch2>這件事背後的產業脈絡\u003C\u002Fh2>\u003Cp>現在很多 AI 團隊都卡在同一個問題。模型越來越貴，大家卻還是想要更高準確率。於是，prompt engineering 又回到檯面上。不是因為它高級，而是因為它便宜，而且馬上能試。\u003C\u002Fp>\u003Cp>這也反映出一個很現實的趨勢。很多企業不會一開始就去重訓模型。它們先做 prompt 調整，再做評測，再看要不要上 RAG，最後才考慮微調。這條路很務實。也很台灣。先求能用，再求漂亮。\u003C\u002Fp>\u003Cp>如果你看開源陣營，像 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fmeta-llama\" target=\"_blank\" rel=\"noopener\">Llama\u003C\u002Fa> 和 \u003Ca href=\"https:\u002F\u002Fmistral.ai\u002F\" target=\"_blank\" rel=\"noopener\">Mistral\u003C\u002Fa> 這類模型，社群也很愛測各種 prompt 技巧。原因很簡單。大家都想知道，模型到底是「真的懂」，還是只是「對格式很敏感」。\u003C\u002Fp>\u003Cp>我自己的看法是，這篇研究最大的價值，不是告訴你重複一次就會贏。它是在提醒大家，很多 AI 系統其實還很脆弱。你只要換一種表達方式，結果就會飄。這種脆弱性，才是工程上最該處理的地方。\u003C\u002Fp>\u003Ch2>接下來該怎麼做\u003C\u002Fh2>\u003Cp>如果你現在手上有一個 LLM 功能，我會建議你先挑一個低風險任務試試。像是分類、抽欄位、比對標籤。把 prompt 複製一次，和原版做 A\u002FB test。每組至少跑 1,\u003Ca href=\"\u002Fnews\u002Fqodo-raises-70m-to-verify-ai-written-code-zh\">000\u003C\u002Fa> 次，才比較看得出差異。\u003C\u002Fp>\u003Cp>接著，你要同時看三件事。準確率、延遲、token 成本。只看準確率很危險。因為你可能只是把錯誤換成更貴的錯誤。這種事在產品會議裡很常見，大家都愛看漂亮數字，卻沒人想看帳單。\u003C\u002Fp>\u003Cp>我會直接下這個判斷：如果你的任務偏回憶，重複 prompt 值得試。如果你的任務偏推理，先別急著套用。這不是玄學。是工程判斷。\u003C\u002Fp>\u003Cp>下一步很簡單。先把你手上的 prompt 分成兩類。哪一些在做資料擷取，哪一些在做推理。分完之後，你就知道這招該不該放進你的工具箱。","Google Research 研究發現，提示詞複製一次可讓 70 組模型與基準測試中的 47 組提升準確率，NameIndex 甚至從 21.33% 衝到 97.33%。","www.aicerts.ai","https:\u002F\u002Fwww.aicerts.ai\u002Fnews\u002Fprompt-engineering-duplicate-prompts-boost-accuracy\u002F",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775122500397-vvmh.png","research","zh","ea6494a5-5f7a-4896-8fe8-c26737159834",[17,18,19,20,21,22,23],"prompt engineering","LLM","Google Research","模型評測","人工智慧","準確率","資料擷取",6,"2026-04-02T08:39:34.363421+00:00","2026-04-02T08:39:34.165+00:00",{"tags":28,"relatedLang":39,"relatedPosts":43},[29,31,33,34,35,37,38],{"name":19,"slug":30},"google-research",{"name":17,"slug":32},"prompt-engineering",{"name":21,"slug":21},{"name":20,"slug":20},{"name":18,"slug":36},"llm",{"name":22,"slug":22},{"name":23,"slug":23},{"id":15,"slug":40,"title":41,"language":42},"duplicate-prompts-can-lift-accuracy-fast-en","Duplicate Prompts Can Lift Accuracy Fast","en",[44,50,56,62,68,74],{"id":45,"slug":46,"title":47,"cover_image":48,"image_url":48,"created_at":49,"category":13},"7ec803f7-2658-4c9e-baa6-2b8528407d7f","google-deepmind-co-scientist-researchers-zh","Google DeepMind 對外開放 Co-Scientist","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780636679231-q694.png","2026-06-05T05:17:30.68789+00:00",{"id":51,"slug":52,"title":53,"cover_image":54,"image_url":54,"created_at":55,"category":13},"923bb0c4-95f3-49a0-8e01-5cdd6bcd2e32","fixing-llm-forgetting-es-fine-tuning-zh","ES 微調忘記問題有解了","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780604276240-arx4.png","2026-06-04T20:17:25.720929+00:00",{"id":57,"slug":58,"title":59,"cover_image":60,"image_url":60,"created_at":61,"category":13},"42510df4-4692-44c6-a45a-c82a4a86b646","tls-turns-insecure-links-into-encrypted-sessions-zh","TLS 把明文連線變成加密會話","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780596207456-9or4.png","2026-06-04T18:02:50.988357+00:00",{"id":63,"slug":64,"title":65,"cover_image":66,"image_url":66,"created_at":67,"category":13},"4fa896da-9616-425a-92bc-c1d7d5861ff9","streamma-multi-agent-reasoning-latency-zh","StreamMA 讓多代理推理邊想邊傳","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780554786134-1w1d.png","2026-06-04T06:32:32.769423+00:00",{"id":69,"slug":70,"title":71,"cover_image":72,"image_url":72,"created_at":73,"category":13},"f31f51ba-4445-4e43-9bda-31e70f53d42b","audio-language-models-arbitration-reversals-zh","音訊模型不是聽不懂","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780553877373-ux95.png","2026-06-04T06:17:27.890159+00:00",{"id":75,"slug":76,"title":77,"cover_image":78,"image_url":78,"created_at":79,"category":13},"447ac6c9-477b-45c8-bec2-ff94dc4cf5d4","stride-training-data-attribution-sparse-recovery-zh","STRIDE 讓訓練資料歸因快 13 倍","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780552979370-897a.png","2026-06-04T06:02:29.149166+00:00",[81,86,91,96,101,106,111,116,121,126],{"id":82,"slug":83,"title":84,"created_at":85},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":87,"slug":88,"title":89,"created_at":90},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":92,"slug":93,"title":94,"created_at":95},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":97,"slug":98,"title":99,"created_at":100},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":102,"slug":103,"title":104,"created_at":105},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":107,"slug":108,"title":109,"created_at":110},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":112,"slug":113,"title":114,"created_at":115},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":117,"slug":118,"title":119,"created_at":120},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":122,"slug":123,"title":124,"created_at":125},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":127,"slug":128,"title":129,"created_at":130},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]