[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tag-benchmark":3},{"tag":4,"articles":10,"peer_article_count":234},{"id":5,"name":6,"slug":6,"article_count":7,"description_zh":8,"description_en":9},"736c4d52-f7e2-4456-a45f-50aae8402b4e","benchmark",6,"Benchmark 不只是比誰分數高，而是用固定任務檢查模型、代理與編譯器在真實條件下的穩定性。從長鏈推理、資料視覺化工作流到程式碼安全與效能，基準測試也在考驗方法是否可信。","Benchmarking is how teams check whether models, agents, and compilers hold up under fixed tasks and real constraints. It covers long-horizon reasoning, data-viz workflows, code safety, and performance, while also exposing how much a score can be distorted by the test itself.",[11,20,28,36,43,50,58,65,72,79,87,94,101,108,115,122,129,136,143,150,157,164,171,178,185,192,199,206,213,220,227],{"id":12,"slug":13,"title":14,"summary":15,"category":16,"image_url":17,"cover_image":17,"language":18,"created_at":19},"80a6e921-dfde-4861-ba61-382e195ec94c","revengebench-reverse-engineering-game-policies-zh","RevengeBench：反推遊戲政策的測試框架","RevengeBench把隱藏遊戲政策的反向工程做成可測試任務，證明主動探測能讓 LLM 更接近還原可執行策略。","research","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782368284240-86sh.png","zh","2026-06-25T06:17:29.011751+00:00",{"id":21,"slug":22,"title":23,"summary":24,"category":25,"image_url":26,"cover_image":26,"language":18,"created_at":27},"e60761a1-aaab-4bde-9c2b-03450ba9056c","devin-ai-review-2026-benchmarks-pricing-tests-zh","Devin AI 測試與採購判讀指南","這篇指南帶你實測 Devin AI 的存取、自治能力、基準數字、定價背景與工作流程限制，並用同一套任務比較它和其他 coding agent。","tools","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782362875481-0ddh.png","2026-06-25T04:47:27.097641+00:00",{"id":29,"slug":30,"title":31,"summary":32,"category":33,"image_url":34,"cover_image":34,"language":18,"created_at":35},"4d9ac1d8-e56f-4e0a-b444-9477980509e5","spec-cpu-2017-retirement-pricing-risc-v-zh","SPEC CPU 2017 進入退場期","SPEC CPU 2017 將在 2026 退場，V1.1.9 則加入較低學術授權、Linux on RISC-V 支援與更完整的配置報告。","industry","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782289078923-4lhe.png","2026-06-24T08:17:33.238511+00:00",{"id":37,"slug":38,"title":39,"summary":40,"category":16,"image_url":41,"cover_image":41,"language":18,"created_at":42},"8531d5f9-60f1-4a4b-94a3-323b82990f06","lifescibench-tests-biotech-models-zh","LifeSciBench 讓模型先過科研關","我拆 LifeSciBench 怎麼把生命科學模型評估拉回真實科研工作，順手給你一份可直接抄的評測模板。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782198202904-lzgm.png","2026-06-23T07:02:47.182473+00:00",{"id":44,"slug":45,"title":46,"summary":47,"category":16,"image_url":48,"cover_image":48,"language":18,"created_at":49},"10c48be8-a5e6-4153-87d3-573dd4b2aec4","rootly-benchmark-llama-4-trails-coding-models-zh","Rootly 測試：Llama 4 落後編碼模型","Rootly AI Labs 用 100 筆 GitHub bug 來測 Llama 4，結果顯示它在選 PR 的編碼任務上落後於 Llama 3.3、DeepSeek v3.1 與多個 coding 模型。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782086568903-6jm6.png","2026-06-22T00:02:22.337854+00:00",{"id":51,"slug":52,"title":53,"summary":54,"category":55,"image_url":56,"cover_image":56,"language":18,"created_at":57},"a419fc45-bd6c-4ce2-a2ef-2a0467f6c02d","kimi-k27-code-highspeed-mode-skips-benchmarks-zh","Kimi K2.7-Code 主打快，但證據還不夠","Moonshot 的 Kimi K2.7-Code 加了 HighSpeed Mode，主打更快、Token 更省，但目前只有官方 benchmark 能支撐這些說法。","model-release","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781795889545-t5hx.png","2026-06-18T15:17:40.944644+00:00",{"id":59,"slug":60,"title":61,"summary":62,"category":16,"image_url":63,"cover_image":63,"language":18,"created_at":64},"f0501097-0bec-43ec-b310-56fc442ab53c","arxiv-ai-papers-agents-memory-data-zh","ArXiv這批 AI 論文都在補三件事","這批 arXiv AI 論文集中在 agent 推理、長上下文資料、以及更貼近真實工作的 benchmark 設計。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781685180920-w8wl.png","2026-06-17T08:32:36.427824+00:00",{"id":66,"slug":67,"title":68,"summary":69,"category":16,"image_url":70,"cover_image":70,"language":18,"created_at":71},"a11f0446-10ed-4065-b079-fd59f9d7e6e1","reprorepo-github-issues-reproducibility-audits-zh","ReproRepo 用 GitHub issues 做可重現性稽核","ReproRepo 把 GitHub issues 變成可重用監督訊號，用來擴大機器學習論文的可重現性稽核。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781678882881-amo7.png","2026-06-17T06:47:34.915676+00:00",{"id":73,"slug":74,"title":75,"summary":76,"category":16,"image_url":77,"cover_image":77,"language":18,"created_at":78},"d77cb1e8-9169-416f-a673-317bc4e2ee39","clinhallu-medical-mllm-hallucination-benchmark-zh","ClinHallu 追蹤醫療 MLLM 幻覺來源","ClinHallu 把醫療多模態模型的幻覺拆成看圖、記知識、做整合三段來診斷，讓開發者能定位錯誤來源。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781504269169-ifu4.png","2026-06-15T06:17:22.803066+00:00",{"id":80,"slug":81,"title":82,"summary":83,"category":84,"image_url":85,"cover_image":85,"language":18,"created_at":86},"5e2ed9f7-4240-429b-97c7-ffd31e4a45ee","llm-research-engineers-post-training-services-zh","LLM研究工程師把後訓練做成服務","拆 Codersarts 的 on-demand LLM 後訓練服務，順手給你一份可直接複製的 eval、SFT、RLHF、alignment 模板。","ai-agent","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781402598646-2jzs.png","2026-06-14T02:02:46.765352+00:00",{"id":88,"slug":89,"title":90,"summary":91,"category":16,"image_url":92,"cover_image":92,"language":18,"created_at":93},"0a31ce5e-ef36-4043-bfaf-0bee0dde375a","evoarena-llm-agents-dynamic-environments-zh","EvoArena：測 LLM 代理在變動世界的記憶力","EvoArena 把 LLM 代理丟進會持續變動的環境，並用 EvoMem 的補丁式記憶來追蹤更新，測試它們能不能跟上變化。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781245091032-qidw.png","2026-06-12T06:17:32.741551+00:00",{"id":95,"slug":96,"title":97,"summary":98,"category":55,"image_url":99,"cover_image":99,"language":18,"created_at":100},"34a87535-6782-4b8e-99a9-dee0c09c529f","opus-48-best-benchmark-not-default-zh","Opus 4.8 是榜首，但不該成為預設模型","Claude Opus 4.8 在 Nate 的基準測試拿下第一，但它更適合當專家模型，不適合直接成為所有工作流的預設。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781085788510-2eht.png","2026-06-10T10:02:22.314699+00:00",{"id":102,"slug":103,"title":104,"summary":105,"category":16,"image_url":106,"cover_image":106,"language":18,"created_at":107},"e3ecab4b-7cc7-4246-baf6-e1c170d86ca5","omnigamearena-vlm-game-agent-benchmark-zh","OmniGameArena 讓 VLM 遊戲代理更好比","OmniGameArena 用 12 個 UE5 遊戲與反思式評分，讓 VLM 遊戲代理不只看首輪分數，也能看改善與泛化。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780985893022-70pl.png","2026-06-09T06:17:32.189729+00:00",{"id":109,"slug":110,"title":111,"summary":112,"category":16,"image_url":113,"cover_image":113,"language":18,"created_at":114},"9f629b51-c1ad-4a83-beef-40059da1ab54","llms-stumble-counterintuitive-probability-zh","LLM 在反直覺機率題翻車","這篇研究發現，LLM 在標準機率題表現很高，但遇到反直覺、改寫或帶誤導提示的題目時，準確率會明顯下滑。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780900377752-3uk6.png","2026-06-08T06:32:28.84056+00:00",{"id":116,"slug":117,"title":118,"summary":119,"category":33,"image_url":120,"cover_image":120,"language":18,"created_at":121},"1960b819-d6b4-446c-9326-2bb4de2c9964","microsoft-first-reasoning-model-tracker-plain-english-zh","Microsoft 首個推理模型怎麼看","我把 ZDNET 的模型 tracker 拆成一套可抄的評估框架，讓你不用吞完 PR 也能判斷新 AI 模型值不值得碰。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780610598250-8v5r.png","2026-06-04T22:02:49.319184+00:00",{"id":123,"slug":124,"title":125,"summary":126,"category":55,"image_url":127,"cover_image":127,"language":18,"created_at":128},"1985ce38-03c6-4968-96fa-b751553bbef3","why-claude-opus-48-is-not-the-big-story-zh","為什麼 Claude Opus 4.8 不是大新聞","Claude Opus 4.8 不是關鍵突破，而是模型發布正在變成產品更新的訊號。真正重要的，是它是否改變你的工作流、成本與可靠性。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780531367297-nrfs.png","2026-06-04T00:02:24.633987+00:00",{"id":130,"slug":131,"title":132,"summary":133,"category":25,"image_url":134,"cover_image":134,"language":18,"created_at":135},"f2da2b72-a9a2-430b-845b-e52e6097547d","llama-turns-model-releases-into-playbook-zh","Llama 把模型發布變成 playbook","我拆 Llama 的發布策略，整理成一份可直接套用的模型發布模板，讓你少吵 licensing，多交付。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780394605347-478t.png","2026-06-02T10:02:51.124789+00:00",{"id":137,"slug":138,"title":139,"summary":140,"category":16,"image_url":141,"cover_image":141,"language":18,"created_at":142},"f7bb2a7e-9b8a-45ec-bd48-c3dd41c8662a","benchlm-agent-tool-use-benchmarks-2026-zh","BenchLM 2026：AI Agent 模型排行","BenchLM 2026 用 26 個基準測 AI agent 模型，重點看工具呼叫、瀏覽器、終端機和電腦控制，GPT-5.5 Pro 目前拿下驗證榜首。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780317190055-uee0.png","2026-06-01T12:32:37.6253+00:00",{"id":144,"slug":145,"title":146,"summary":147,"category":25,"image_url":148,"cover_image":148,"language":18,"created_at":149},"d588cb9f-0207-4e99-9b43-aac9886f1133","llm-leaderboard-2026-top-models-compared-zh","2026 LLM 排行榜更新：誰領先","Vellum 於 2026 年 5 月 29 日更新 LLM 排行榜，加入新 benchmark、速度與價格比較，方便開發者按任務挑模型。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780316273635-wgda.png","2026-06-01T12:17:26.139692+00:00",{"id":151,"slug":152,"title":153,"summary":154,"category":33,"image_url":155,"cover_image":155,"language":18,"created_at":156},"e642df22-7247-4581-91d5-0cec845a7269","5-open-source-llms-coding-cost-zh","5 個開源 LLM：寫程式與成本","5 個開源 LLM 依寫程式、推理、速度、上下文與價格排序，附 2026 即時基準與選型建議。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779667574131-umho.png","2026-05-25T00:05:39.806482+00:00",{"id":158,"slug":159,"title":160,"summary":161,"category":55,"image_url":162,"cover_image":162,"language":18,"created_at":163},"e461ae3e-ed3f-4109-910c-8ebac13936bd","gpt-5-5-senior-engineer-benchmark-every-en-zh","GPT-5.5 在工程測試拿 62.5 分","OpenAI 於 2026\u002F4\u002F23 推出 GPT-5.5，Every 指它在 Senior Engineer Benchmark 最佳成績達 62.5，明顯領先 Opus 4.7，但仍低於人類資深工程師。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779538556274-2bmf.png","2026-05-23T12:15:25.573753+00:00",{"id":165,"slug":166,"title":167,"summary":168,"category":25,"image_url":169,"cover_image":169,"language":18,"created_at":170},"39f058b8-5f14-4b03-b717-457e28c7130e","gpt-55-tops-artificial-analysis-score-60-zh","GPT-5.5 以 60 分登頂","Artificial Analysis 更新 523 款模型排行，GPT-5.5（xhigh）以 60 分拿下智能榜首，並同步顯示速度、延遲、價格與上下文窗口比較。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779537969912-mv8m.png","2026-05-23T12:05:38.079215+00:00",{"id":172,"slug":173,"title":174,"summary":175,"category":16,"image_url":176,"cover_image":176,"language":18,"created_at":177},"d1c6850c-f832-471b-8beb-c0ebc809667d","peft-bench-fine-tuning-methods-benchmark-zh","PEFT-Bench 讓微調比較更公平","PEFT-Bench 把 27 個 NLP 資料集與 7 種 PEFT 方法放進同一套流程，比的不只準確率，也把參數、速度和記憶體成本算進去。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779179048497-jm5y.png","2026-05-19T08:23:36.803043+00:00",{"id":179,"slug":180,"title":181,"summary":182,"category":16,"image_url":183,"cover_image":183,"language":18,"created_at":184},"bfd03801-a200-4222-9370-8b441be41483","entitybench-long-range-video-consistency-zh","EntityBench 盯住長片一致性","EntityBench 用長篇多鏡頭影片做一致性測試，檢查角色、物件與場景能不能跨鏡頭維持同一性，也提出帶記憶的基線方法 EntityMem。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778911845686-4mc8.png","2026-05-16T06:10:27.85068+00:00",{"id":186,"slug":187,"title":188,"summary":189,"category":16,"image_url":190,"cover_image":190,"language":18,"created_at":191},"9d27f967-62cc-433f-8cdb-9300937ade13","ai-benchmark-wins-cyber-scare-defenders-zh","為什麼 AI 基準賽在資安領域的勝利，應該讓防守方警醒","AI 資安基準的進展已顯示自主攻擊能力正在追上防守方的規劃速度，這不是實驗室新聞，而是防線時間被壓縮的警訊。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778807450006-nofx.png","2026-05-15T01:10:29.379041+00:00",{"id":193,"slug":194,"title":195,"summary":196,"category":16,"image_url":197,"cover_image":197,"language":18,"created_at":198},"3195f998-ce04-402b-9e87-e4b7579de296","why-gpt-5-5-should-be-default-coding-llm-2026-zh","為什麼 GPT-5.5 應該成為 2026 年的預設寫碼 LLM","GPT-5.5 應該成為 2026 年的預設寫碼 LLM，因為它在公開基準的綜合表現領先，最適合作為團隊的能力上限。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778577040199-5z21.png","2026-05-12T09:10:25.144952+00:00",{"id":200,"slug":201,"title":202,"summary":203,"category":16,"image_url":204,"cover_image":204,"language":18,"created_at":205},"519b0e2e-4287-42bc-b749-1fd42664f57b","deeptest-2026-llm-car-manual-assistant-zh","DeepTest 2026 首辦車主手冊 LLM 評測","DeepTest 2026 首度把 LLM 車主手冊問答拉進競賽式評測，讓四個工具在同一任務下比對檢索能力。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778048449427-tnji.png","2026-05-06T06:20:31.717618+00:00",{"id":207,"slug":208,"title":209,"summary":210,"category":16,"image_url":211,"cover_image":211,"language":18,"created_at":212},"d898c232-8ae5-4bae-9476-738f2e5786db","dv-world-tests-chart-agents-real-workflows-zh","DV-World 測試圖表代理真實工作流","DV-World 用試算表、視覺演化與意圖對齊三類任務，檢驗資料視覺化代理在更接近企業工作流的表現。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1777442820403-xlbs.png","2026-04-29T06:06:44.930537+00:00",{"id":214,"slug":215,"title":216,"summary":217,"category":16,"image_url":218,"cover_image":218,"language":18,"created_at":219},"2468c20a-c3cf-4004-8981-44934691673a","longcot-long-horizon-chain-of-thought-benchmark-zh","LongCoT：測長鏈推理，不只看答案","LongCoT 用 2,500 題測試模型能否在長鏈、互相依賴的推理步驟中保持一致。GPT 5.2 與 Gemini 3 Pro 仍低於 10%。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776319784084-uldi.png","2026-04-16T06:09:22.856744+00:00",{"id":221,"slug":222,"title":223,"summary":224,"category":25,"image_url":225,"cover_image":225,"language":18,"created_at":226},"920762f8-7d82-488d-8e94-7ee1423c98aa","claudes-c-compiler-benchmarks-analysis-zh","Claude 的 C 編譯器把基準測試搞砸了","Claude 寫的 C compiler 能編 Linux kernel，卻在 SPEC CPU2017 把效能打到只剩 GCC 的 23.6% 到 27.1%，還有一組直接當掉。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775294153812-5l9f.png","2026-04-04T09:15:35.14438+00:00",{"id":228,"slug":229,"title":230,"summary":231,"category":33,"image_url":232,"cover_image":232,"language":18,"created_at":233},"e660d801-2421-4529-8fa9-86b82b066990","metas-llama-4-benchmark-scandal-gets-worse-zh","Meta Llama 4 分數風波又擴大","Meta 的 Llama 4 原本要延續開放模型聲勢，結果卻陷入評測分數爭議。最新報導指出，Meta 在發布前可能用不同模型跑不同 benchmark，讓分數看起來更好，信任問題也跟著擴大。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1774516531283-08x2.png","2026-03-26T07:34:21.156421+00:00",12]