[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-llm-research-engineers-post-training-services-zh":3,"article-related-llm-research-engineers-post-training-services-zh":30,"series-ai-agent-5e2ed9f7-4240-429b-97c7-ffd31e4a45ee":82},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"5e2ed9f7-4240-429b-97c7-ffd31e4a45ee","llm-research-engineers-post-training-services-zh","LLM研究工程師把後訓練做成服務","\u003Cp data-speakable=\"summary\">這篇在拆 \u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> 後訓練怎麼被做成可交付服務，還附一份能直接拿去用的模板。\u003C\u002Fp>\u003Cp>我碰過太多 LLM 專案，前面都很順，真正卡住的不是接 \u003Ca href=\"\u002Ftag\u002Fapi\">API\u003C\u002Fa>，也不是做聊天介面。最煩的是模型一上線就開始裝乖：你問它要不要改方案，它說好；你丟一個邊界案例，它還是說好。看起來很會講，實際上什麼都沒解決。更慘的是，團隊常常拿「我們有手動測過」當證據，像這句話本身就能讓模型變可靠一樣。說真的，不能。\u003C\u002Fp>\u003Cp>我會注意到 \u003Ca href=\"https:\u002F\u002Fwww.codersarts.com\u002Fpost\u002Fhire-llm-research-engineers\" target=\"_blank\" rel=\"noopener noreferrer\">Codersarts 這篇招募 LLM research engineers 的文章\u003C\u002Fa>，就是因為它沒有把後訓練包裝成玄學。它直接把 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa>、SFT、RLHF、alignment、reasoning research、RL environment design 拆成工作項目。這種寫法很務實，也很刺眼，因為它等於在講：你們缺的不是更多口號，是一套能重跑、能量化、能交付的流程。\u003C\u002Fp>\u003Cp>我下面要拆的，不是他們的銷售話術，是他們背後那套方法論。對台灣團隊來說，這種拆法最有用，因為大多數公司不是缺模型，是缺把模型變穩的工程手段。\u003C\u002Fp>\u003Ch2>先別急著 fine-tune，先問：你到底怎麼證明它變好了？\u003C\u002Fh2>\u003Cblockquote>“Benchmark and evaluation engineering answers these questions with reproducible, automated, measurable systems — not manual testing or gut feel.”\u003C\u002Fblockquote>\u003Cp>這句我很認同。很多團隊一談模型改善，就只會講「感覺更順了」「回答比較像人」。翻譯一下就是：你沒有評估系統，你只有印象。模型如果不能在下個月、換個人、換台機器之後還得到差不多的分數，那你根本不是在做 evaluation，你是在做 demo。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781402598646-2jzs.png\" alt=\"LLM研究工程師把後訓練做成服務\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>Codersarts 這段最實際的地方，是它把 benchmark 當成工程 deliverable，不是研究生作業。它提到的方向像 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fopencompass\u002Fopencompass\" target=\"_blank\" rel=\"noopener noreferrer\">MMLU \u002F OpenCompass\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fwww.swebench.com\u002F\" target=\"_blank\" rel=\"noopener noreferrer\">SWE-bench\u003C\u002Fa>、以及 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.07360\" target=\"_blank\" rel=\"noopener noreferrer\">HalluLens\u003C\u002Fa> 這類 hallucination 評估，\u003Ca href=\"\u002Fnews\u002Fjensen-huang-lg-ai-cooperation-five-bets-zh\">重點\u003C\u002Fa>不是名詞多漂亮，而是你能不能把它接成固定流程。\u003C\u002Fp>\u003Cp>我以前最常看到的錯法，是團隊先改 prompt，再換模型，再調 temperature，最後說「有進步」。問題是，你根本不知道是哪個改動造成的。實操上我會這樣做：先定義一個固定 baseline，然後把資料集版本鎖死，連 rubric 也要版本化。不要今天一套、明天一套，不然你永遠在跟自己的記憶打架。\u003C\u002Fp>\u003Cp>如果你是做 coding assistant，我會先拿 \u003Ca href=\"https:\u002F\u002Fwww.swebench.com\u002F\" target=\"_blank\" rel=\"noopener noreferrer\">SWE-bench\u003C\u002Fa> 當參考，再從你們真實 bug ticket 裡抽一批自家題目。若你在金融、醫療、法務這種場景，評分項目就不能只看答對沒，還要看格式、拒答、\u003Ca href=\"\u002Fnews\u002Fllm-wiki-compiler-raw-sources-to-wiki-zh\">可追溯\u003C\u002Fa>性和是否亂編。你要是沒辦法把分數講給非 ML 的同事聽，通常就是規則太虛。\u003C\u002Fp>\u003Cul>\u003Cli>把 eval dataset 當 code 管理，版本要可追。\u003C\u002Fli>\u003Cli>每次 run 都記錄 model、prompt、seed、rubric 版本。\u003C\u002Fli>\u003Cli>永遠拿固定 baseline 比，不要拿昨天臨時改過的版本比。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>fine-tuning 的本質不是訓練，是整理資料\u003C\u002Fh2>\u003Cblockquote>“The most common failure in fine-tuning is not the training process — it is the data.”\u003C\u002Fblockquote>\u003Cp>這句話很欠罵，但也很準。大家很愛聊 LoRA、QLoRA、adapter，好像只要訓練方法選對，結果就會自己長出來。實際上模型學到的就是你餵給它的東西，包括你那些格式亂掉、標註不一致、例子重複到像複製貼上的資料。\u003C\u002Fp>\u003Cp>Codersarts 提到會做 instruction-response dataset、LoRA \u002F QLoRA pipeline、還有 reasoning 相關資料構造。這和我看過成功的 fine-tune 幾乎一致：範圍要窄、例子要乾淨、輸出格式要固定、訓練前後都要有同一套 eval。不要一開始就想吃整個產品面，先挑一個行為改善就好，不然你只會把混亂訓練得更有效率。\u003C\u002Fp>\u003Cp>他們也提到 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftrl\u002Findex\" target=\"_blank\" rel=\"noopener noreferrer\">Hugging Face TRL\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Faxolotl-ai-cloud\u002Faxolotl\" target=\"_blank\" rel=\"noopener noreferrer\">Axolotl\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fpeft\" target=\"_blank\" rel=\"noopener noreferrer\">PEFT\u003C\u002Fa>。這組工具很對路，因為它們讓你能在 open-weight 模型上做可控的 adapter training，不必假裝自己需要超大規模基礎設施才配碰後訓練。\u003C\u002Fp>\u003Cp>我自己的實操建議很簡單：先只改善一種行為。可能是格式遵從，可能是 domain jargon，可能是拒答方式。先蒐集 100 到 500 筆高品質例子，再做 holdout set，裡面一定要有髒案例和難案例。要是 fine-tune 只在訓練集上好看，那不是成功，那是過擬合包裝得比較漂亮。\u003C\u002Fp>\u003Cul>\u003Cli>先收 100 到 500 筆高品質樣本，再碰訓練。\u003C\u002Fli>\u003Cli>把「格式正確」和「知識正確」分開評。\u003C\u002Fli>\u003Cli>一定做 train \u002F holdout 分離，不要偷看。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>RLHF 不是讓模型更聽話，是讓它更像你要的那種回答\u003C\u002Fh2>\u003Cblockquote>“RLHF teaches it to produce outputs that humans actually prefer.”\u003C\u002Fblockquote>\u003Cp>很多人把 alignment 想得太簡單，以為只要模型答對就夠了。不是。SFT 可以教它說什麼，RLHF 或偏好學習是在教它哪個回答比較值得留下來。這兩\u003Ca href=\"\u002Fnews\u002Fpython-jit-pause-pep-3-15-zh\">件事\u003C\u002Fa>差很多。技術上正確的答案，可能還是很煩、很囉唆、很愛閃躲，甚至在產品裡就是不好用。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781402592586-gjp0.png\" alt=\"LLM研究工程師把後訓練做成服務\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>Codersarts 把這塊拆成 preference dataset、reward model training、DPO、GRPO、PPO-based RLHF、alignment evaluation。這不是在堆名詞，這是把 alignment 當成完整流程在做。我特別注意到他們提 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.18290\" target=\"_blank\" rel=\"noopener noreferrer\">DPO\u003C\u002Fa>，因為對多數團隊來說，DPO 比完整 PPO 流程更實際：比較穩、比較省、也比較容易跟現有資料管線接起來。\u003C\u002Fp>\u003Cp>我遇過一個很典型的狀況：模型在測試集上分數不差，但使用者就是不愛。原因不是答錯，而是太愛長篇大論、太容易在支援場景裡繞圈、太常在該幫忙時先拒絕。這時候你再怎麼調 prompt 都很有限，因為你缺的是偏好資料，不是文案。\u003C\u002Fp>\u003Cp>實操上我會這樣做：先收 pairwise judgment，也就是同一個 prompt 產生兩個回答，請人選比較好的那個，再寫一句理由。rubric 不要一開始就搞太多，先抓三個：helpfulness、harmlessness、honesty。等你能穩定收資料，再考慮 DPO 或 reward model。如果連人都分不出好壞，你就別硬做 RLHF，先把標註流程修好。\u003C\u002Fp>\u003Cp>這個流程我會長這樣：\u003C\u002Fp>\u003Cul>\u003Cli>同一個 prompt 生成多個候選回答。\u003C\u002Fli>\u003Cli>讓 reviewer 選出較好的那個，順手寫原因。\u003C\u002Fli>\u003Cli>把偏好資料餵進 DPO 或 reward-model 流程。\u003C\u002Fli>\u003Cli>重新跑同一組 eval，看行為有沒有往你要的方向走。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>reasoning 不是叫模型多想一下，是叫你把過程也納入訓練\u003C\u002Fh2>\u003Cblockquote>“Improving reasoning performance requires specialized training data, reward signals that evaluate process not just outcome, and evaluation frameworks that test step-by-step correctness.”\u003C\u002Fblockquote>\u003Cp>這句拆開來看很重要。推理能力不是單一功能，它是資料、訓練、評估三件事一起決定的。你如果只看最後答案，就看不到它是不是靠亂猜蒙對；你如果只餵最終答案，就根本沒教它怎麼走過程；你如果只用通用 benchmark，就會漏掉你自己 domain 裡真正會爆的地方。\u003C\u002Fp>\u003Cp>Codersarts 提到 chain-of-thought dataset construction、reasoning-specific evaluation、process-aware training，這才是對的路。我看過太多團隊把 reasoning 當成「多塞幾個 step-by-step」就會好，結果只是讓 \u003Ca href=\"\u002Ftag\u002Ftoken\">token\u003C\u002Fa> 數變長，帳單變厚，能力沒變。說白了，這不是 prompt 問題，是系統問題。\u003C\u002Fp>\u003Cp>實務上，你要先決定 reasoning 是給誰看。若是內部 \u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa>，可能要保留中間步驟供除錯；若是面向使用者，可能只要簡化後的結論，不該把每一步都攤開。這兩種產品要求完全不同，資料設計也不能混在一起。\u003C\u002Fp>\u003Cp>我會建議你做一組有明確中間步驟的任務，例如數學題、程式修 bug、多跳檢索、政策判斷。然後跑三版：base model、SFT on final answers、SFT on reasoning traces。若 reasoning trace 版本在難題上更穩、在簡單題上沒退步，你就拿到信號了。若只是變得更囉唆，那就只是更會廢話。\u003C\u002Fp>\u003Cp>一個很實用的評分拆法是：\u003C\u002Fp>\u003Cul>\u003Cli>它有沒有先抓對子問題？\u003C\u002Fli>\u003Cli>它有沒有維持條件與限制不走鐘？\u003C\u002Fli>\u003Cli>最後答案有沒有真的對？\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>agent 和環境設計，才是 prototype 會不會騙人的地方\u003C\u002Fh2>\u003Cblockquote>“We design RL environments that mirror the task, reward the right behavior, and support iterative training.”\u003C\u002Fblockquote>\u003Cp>這段我很有感。很多 agent demo 看起來像樣，是因為聊天框太寬容。真正一碰到多步驟工具使用、狀態管理、錯誤復原，整個就露餡。不是模型突然變笨，而是環境終於開始誠實。\u003C\u002Fp>\u003Cp>Codersarts 把 coding agent、software engineering research、RL environment design 放在一起講，意思很清楚：他們不是只訓練文字生成器，而是在設計一個能讓模型反覆犯錯、修正、再學會的工作環境。這個差別很大，因為你如果只在 chat 裡看它，永遠會高估它。\u003C\u002Fp>\u003Cp>我之前看過一個 agent，能把修 bug 的思路講得頭頭是道，但真的要改 repo、跑 test、看失敗原因時就卡死。問題不是它不會講，而是環境沒逼它處理 state、tool call、以及可恢復錯誤。環境一收緊，問題馬上浮出來，這反而是好事，因為你終於知道該修哪裡。\u003C\u002Fp>\u003Cp>實操寫法很直接：把環境定義成真實任務，而不是抽象對話。做 code 的話，就把 repo checkout、patch application、test execution、verification 都納進去。做客服自動化，就把 ticket context、knowledge base retrieval、response drafting 都納進去。reward 也別亂給，要對準完成度、正確性、安全性，不然模型會學會鑽漏洞。\u003C\u002Fp>\u003Cp>在你開始前，先問自己三件事：\u003C\u002Fp>\u003Cul>\u003Cli>這個任務能不能 reset、能不能 replay？\u003C\u002Fli>\u003Cli>reward 是不是綁在真實結果，不是很容易被騙的 proxy？\u003C\u002Fli>\u003Cli>每一步 action 能不能完整 log 下來，方便事後看？\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>我真正學到的是：後訓練可以被拆成服務，但前提是你先把邊界畫清楚\u003C\u002Fh2>\u003Cblockquote>“We implement benchmarks, run fine-tuning pipelines, build RLHF systems, and design RL environments — as scoped, production-ready engineering work, delivered on demand.”\u003C\u002Fblockquote>\u003Cp>這句話其實把整篇文章講完了。Codersarts 賣的不是神奇 AI 顧問，而是把後訓練這塊髒活拆成可交付的工程服務。這個切法很務實，因為大多數內部團隊真的忙不過來：產品要上、infra 要修、prompt 要改、主管還在問為什麼模型今天又退步。\u003C\u002Fp>\u003Cp>我會把它理解成三塊。第一塊是 evaluation 和 benchmark design，沒有這塊你不知道自己有沒有進步。第二塊是 training data 和 fine-tuning，沒有這塊你只能一直改 prompt。第三塊是 preference alignment 和 environment design，沒有這塊 agent 和複雜任務根本跑不穩。\u003C\u002Fp>\u003Cp>如果你要自己做，或是拿這套去跟外包／顧問談，我的建議很不浪漫：別問「你們有沒有 AI 經驗」，那太空了。你要問的是，他們有沒有做過 eval harness、能不能重跑訓練、會不會設計 preference data、能不能把環境和 reward 定義清楚。這些才是能不能交付的分水嶺。\u003C\u002Fp>\u003Cp>我最想留下來的結論很簡單：LLM 專案不是缺模型能力，通常是缺後訓練的工程化。你把測試、資料、偏好、環境這四件事做紮實，模型才會像個能用的系統，不然永遠只是會講話的 demo。\u003C\u002Fp>\u003Ch2>可抄的模板\u003C\u002Fh2>\u003Cpre>\u003Ccode># LLM Post-Training Service Scope Template（可直接複製改掉欄位）\n\n## 1) Project Goal\nWe want to improve exactly one model behavior:\n- Task:\n- User segment:\n- Current failure mode:\n- Target outcome:\n- Non-goals:\n\n## 2) Evaluation Plan\nSuccess will be measured by:\n- Primary benchmark:\n- Custom domain eval set:\n- Rubric dimensions:\n  - factual accuracy\n  - reasoning quality\n  - format adherence\n  - refusal \u002F safety behavior\n  - domain-specific criteria\n- Baseline model \u002F prompt:\n- Reproducibility requirements:\n  - fixed dataset version\n  - logged prompts\n  - logged seeds\n  - logged model versions\n  - logged rubric version\n\n## 3) Fine-Tuning Plan\nWe will train:\n- Base model:\n- Method: LoRA \u002F QLoRA \u002F full fine-tune\n- Dataset type:\n  - instruction-response pairs\n  - chain-of-thought traces\n  - domain examples\n  - hard negatives\n- Data rules:\n  - clean formatting\n  - no duplicate examples\n  - holdout set reserved\n  - edge cases included\n  - label guidelines documented\n- Training tools:\n  - Hugging Face TRL\n  - PEFT\n  - Axolotl\n  - Weights & Biases\n\n## 4) Alignment \u002F Preference Plan\nWe will improve preference behavior with:\n- Preference data source:\n- Judging rubric:\n  - helpfulness\n  - harmlessness\n  - honesty\n- Method:\n  - DPO\n  - reward model + PPO\n  - GRPO if needed\n- Acceptance criteria:\n  - better human preference scores\n  - no regression on safety\n  - no regression on core task accuracy\n\n## 5) Reasoning \u002F Agent Plan\nIf the task needs multi-step behavior:\n- Reasoning traces required: yes \u002F no\n- Intermediate-step supervision: yes \u002F no\n- Environment definition:\n- Tool actions supported:\n- Reset \u002F replay support:\n- Reward definition:\n- Failure logging:\n- Success logging:\n\n## 6) Delivery Artifacts\nThe work must ship with:\n- eval harness\n- benchmark report\n- training config\n- dataset schema\n- before\u002Fafter comparison\n- deployment notes\n- reproducibility checklist\n- failure-mode summary\n\n## 7) Definition of Done\nThis project is done when:\n- the model beats the baseline on agreed evals\n- the result is reproducible\n- failure modes are documented\n- the team can rerun the pipeline without guesswork\n- the evaluation harness is reusable for the next iteration\u003C\u002Fcode>\u003C\u002Fpre>\u003Cp>原始來源是 \u003Ca href=\"https:\u002F\u002Fwww.codersarts.com\u002Fpost\u002Fhire-llm-research-engineers\" target=\"_blank\" rel=\"noopener noreferrer\">Codersarts 的 post\u003C\u002Fa>，另外我有參考 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftrl\u002Findex\" target=\"_blank\" rel=\"noopener noreferrer\">Hugging Face TRL\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fpeft\" target=\"_blank\" rel=\"noopener noreferrer\">PEFT\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fwww.swebench.com\u002F\" target=\"_blank\" rel=\"noopener noreferrer\">SWE-bench\u003C\u002Fa> 和 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.18290\" target=\"_blank\" rel=\"noopener noreferrer\">DPO 論文\u003C\u002Fa>。前半段是我基於來源的拆解，模板段落則是我整理成可直接抄的版本。\u003C\u002Fp>","拆 Codersarts 的 on-demand LLM 後訓練服務，順手給你一份可直接複製的 eval、SFT、RLHF、alignment 模板。","www.codersarts.com","https:\u002F\u002Fwww.codersarts.com\u002Fpost\u002Fhire-llm-research-engineers",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781402598646-2jzs.png","ai-agent","zh","39f54361-7d76-4dfe-be99-dcae84f18a07",[17,18,19,20,21],"LLM post-training","SFT","RLHF","DPO","benchmark",[23,24,25],"後訓練要先有可重跑的 eval，否則你只是在做 demo。","fine-tuning 成敗多半卡在資料品質，不在訓練技巧。","把偏好、reasoning、agent 環境拆開設計，模型才會真的變穩。",0,"2026-06-14T02:02:46.765352+00:00","2026-06-14T02:02:46.749+00:00","e3b68196-9e64-4c18-a3b6-a73e73bfb367",{"tags":31,"relatedLang":41,"relatedPosts":45},[32,34,36,37,39],{"name":19,"slug":33},"rlhf",{"name":18,"slug":35},"sft",{"name":21,"slug":21},{"name":17,"slug":38},"llm-post-training",{"name":20,"slug":40},"dpo",{"id":15,"slug":42,"title":43,"language":44},"llm-research-engineers-post-training-services-en","LLM research engineers turn post-training into services","en",[46,52,58,64,70,76],{"id":47,"slug":48,"title":49,"cover_image":50,"image_url":50,"created_at":51,"category":13},"7ea0ef5b-d12c-4b18-b8fd-6ae3de67c296","coinbase-ai-agent-accounts-strict-limits-zh","Coinbase 讓 AI 代理代交易與代支付是對的，但前提是嚴格限權","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781409758550-mjql.png","2026-06-14T04:02:15.334232+00:00",{"id":53,"slug":54,"title":55,"cover_image":56,"image_url":56,"created_at":57,"category":13},"7315dc1e-d3c0-4888-8466-1328e8819be0","peft-llm-fine-tuning-without-full-retraining-zh","PEFT LoRA 微調 LLM 實作指南","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781403475967-xlpz.png","2026-06-14T02:17:26.268208+00:00",{"id":59,"slug":60,"title":61,"cover_image":62,"image_url":62,"created_at":63,"category":13},"09e34016-bbc0-4313-b090-2dbfdd6cf96a","fine-tuning-slms-turns-enterprise-ai-practical-zh","SLM 微調把企業 AI 變可用","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781359406320-5jrq.png","2026-06-13T14:02:55.242488+00:00",{"id":65,"slug":66,"title":67,"cover_image":68,"image_url":68,"created_at":69,"category":13},"06a33326-5420-4e1d-99ff-233939652a44","aspire-microsoft-agent-framework-app-graph-zh","Aspire 把 Agent 圖譜收進一個 AppHost","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781353076983-n0ho.png","2026-06-13T12:17:30.314245+00:00",{"id":71,"slug":72,"title":73,"cover_image":74,"image_url":74,"created_at":75,"category":13},"40cd5d8d-c9fc-4883-b978-f7f757c14488","fable-5-claude-code-like-coworker-zh","Fable 5 讓 Claude Code 更像真同事","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781324309029-2n7r.png","2026-06-13T04:18:00.6602+00:00",{"id":77,"slug":78,"title":79,"cover_image":80,"image_url":80,"created_at":81,"category":13},"5bff363a-295a-47d3-911b-411f5f45e2bb","fine-tuning-methods-sft-lora-dpo-rlhf-grpo-zh","SFT、LoRA、DPO、RLHF、GRPO 選型指南","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781262197359-7rgb.png","2026-06-12T11:02:33.190744+00:00",[83,88,93,98,103,108,113,118,123,128],{"id":84,"slug":85,"title":86,"created_at":87},"4ae1e197-1d3d-4233-8733-eafe9cb6438b","claude-now-uses-your-pc-to-finish-tasks-zh","Claude 開始幫你操作電腦","2026-03-26T07:20:48.457387+00:00",{"id":89,"slug":90,"title":91,"created_at":92},"5bede67f-e21c-413d-9ab8-54a3c3d26227","googles-2026-ai-agent-report-decoded-zh","Google 2026 AI Agent 報告解讀","2026-03-26T11:15:22.651956+00:00",{"id":94,"slug":95,"title":96,"created_at":97},"2987d097-563f-46c7-b76f-b558d8ef7c2b","kimi-k25-review-stronger-still-not-legend-zh","Kimi K2.5 評測：更強，但還不是神作","2026-03-27T07:15:55.277513+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"95c9053b-e3f4-4cb5-aace-5c54f4c9e044","claude-code-controls-mac-desktop-zh","Claude Code 也能操控 Mac 了","2026-03-28T03:01:58.58121+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"dc58e153-e3a8-4c06-9b96-1aa64eabbf5f","cloudflare-100x-faster-ai-agent-sandbox-zh","Cloudflare 的 AI 沙箱跑超快","2026-03-28T03:09:44.142236+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"1c8afc56-253f-47a2-979f-1065ff072f2a","openai-backs-isara-agent-swarm-bet-zh","OpenAI 挺 Isara 的 agent swarm …","2026-03-28T03:15:27.513155+00:00",{"id":114,"slug":115,"title":116,"created_at":117},"7379b422-576e-45df-ad5a-d57a0d9dd467","openai-plan-automated-ai-researcher-zh","OpenAI 想做自動化 AI 研究員","2026-03-28T03:17:42.090548+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"48c9889e-86df-450b-a356-e4a4b7c83c5b","harness-engineering-ai-agent-reliability-2026-zh","駕馭工程：從「馬具」到「作業系統」，AI Agent 可靠性的終極密碼","2026-03-31T06:42:53.556721+00:00",{"id":124,"slug":125,"title":126,"created_at":127},"96d8e8c8-1edd-475d-9145-b1e7a1b02b65","mcp-explained-from-prompts-to-production-zh","MCP 怎麼把提示詞變工作流","2026-04-01T09:24:39.321274+00:00",{"id":129,"slug":130,"title":131,"created_at":132},"f2ca7720-b471-4ce5-9336-2a9ac2a876fd","amazon-bedrock-agents-multi-agent-workflows-zh","Amazon Bedrock Agents 進入多代理工作流","2026-04-01T09:30:29.945429+00:00"]