[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-microsoft-first-reasoning-model-tracker-plain-english-zh":3,"article-related-microsoft-first-reasoning-model-tracker-plain-english-zh":30,"series-industry-1960b819-d6b4-446c-9326-2bb4de2c9964":81},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"1960b819-d6b4-446c-9326-2bb4de2c9964","microsoft-first-reasoning-model-tracker-plain-english-zh","Microsoft 首個推理模型怎麼看","\u003Cp data-speakable=\"summary\">我把 ZDNET 的模型 tracker 拆成一套可抄的評估框架，讓你不用吞完 PR 也能判斷新 AI 模型值不值得碰。\u003C\u002Fp>\u003Cp>我最近一直在看 AI 模型發表，老實說，看久了真的會膩。每次都差不多：官方稿先把話說滿，\u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 挑最漂亮的講，然後丟一句「這會改變一切」。我在團隊裡最常聽到的\u003Ca href=\"\u002Fnews\u002Ffixing-llm-forgetting-es-fine-tuning-zh\">問題\u003C\u002Fa>也很固定：要不要現在就試？還是先等等？我的答案通常都很掃興，先等等。不是因為模型一定爛，而是因為 release note 太會演，常常把產品定位、行銷話術、風險敘事混在一起，逼你自己猜真正差在哪。\u003C\u002Fp>\u003Cp>我後來覺得，問題不是模型太多，是我們讀模型發表的方式太像看廣告。這次我看到 ZDNET 的 \u003Ca href=\"https:\u002F\u002Fwww.zdnet.com\u002Farticle\u002Fai-model-release-tracker\u002F\">AI Model Release Tracker: Microsoft AI’s first reasoning model arrives\u003C\u002Fa>，才覺得這種寫法比較像樣。它不是單純報一個新模型，而是把模型放回整個市場裡比。這個角度才有用，因為我真正需要的不是「又一則新品消息」，而是一套能拿來判斷要不要動手測的框架。\u003C\u002Fp>\u003Cp>我拆的來源是 ZDNET 這篇 tracker，作者是 \u003Ca href=\"https:\u002F\u002Fwww.zdnet.com\u002Fauthor\u002Fradhika-rajkumar\u002F\">Radhika Rajkumar\u003C\u002Fa>。這篇是 live tracker，所以重點不是某一顆模型本身，而是它怎麼被放進競品、用途、風險與節奏裡看。ZDNET 沒有\u003Ca href=\"\u002Fnews\u002Frigmodels-free-sora-3d-models-zh\">提供\u003C\u002Fa>瀏覽數、收藏數或星數，所以我不亂編。\u003C\u002Fp>\u003Ch2>別把模型發表當產品廣告看\u003C\u002Fh2>\u003Cblockquote>“Model strengths really emerge in context: Where are competitor models lacking or excelling? Which models have outstanding specialties, and which are just catching up to industry standards?”\u003C\u002Fblockquote>\u003Cp>翻譯一下就是：模型好不好，不能只看它自己，得看它跟誰比、拿來做什麼比。這句聽起來很廢話，但很多團隊就是會踩坑。某個模型 benchmark 比較高，大家就開始腦補它可以直接上線；結果一進真實 workflow，才發現它只是某一題型特別會考，換到你的資料格式、你的工具鏈、你的錯誤容忍度，整個人就歪掉。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780610598250-8v5r.png\" alt=\"Microsoft 首個推理模型怎麼看\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>我自己也吃過這種虧。以前看一個模型 demo，覺得它在 coding 上很猛，結果一拉進實際任務，它不是不會寫，是太愛自信亂補。這種東西如果只看發表稿，很容易被騙到。ZDNET 這裡講得很直接：強項要放在 context 裡才看得出來。這才是我想要的閱讀方式。\u003C\u002Fp>\u003Cp>實操上，我現在會先寫四欄，不急著試模型：速度、穩定度、任務貼合度、以及「廠商最想讓我忽略的東西」。這欄很重要，因為很多發表稿都會把你注意力導去一個漂亮指標，然後把真正麻煩的部分藏起來。你如果做的是文件抽取，就別被 coding demo 帶走；你如果在意\u003Ca href=\"\u002Ftag\u002F長上下文\">長上下文\u003C\u002Fa>，就別只看單輪問答的漂亮截圖。\u003C\u002Fp>\u003Cul>\u003Cli>先比你自己的工作，再比官方 demo。\u003C\u002Fli>\u003Cli>把 release note 當輸入，不要當結論。\u003C\u002Fli>\u003Cli>每個 claim 都要對應到你的實際任務。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>Microsoft 的第一顆推理模型，重點是「進場」不是「封王」\u003C\u002Fh2>\u003Cblockquote>“This is the first reasoning model from Microsoft AI, a notable milestone for any AI lab, but especially so this late in this race.”\u003C\u002Fblockquote>\u003Cp>也就是說，\u003Ca href=\"\u002Ftag\u002Fmicrosoft\">Microsoft\u003C\u002Fa> 終於把自己的推理模型故事端出來了，而且是以自家 AI 品牌的名義。這件事有意義，但別把「終於出現」直接翻成「已經領先」。晚進場不代表沒戲，只代表我更要小心別把宣傳語當成實力證明。\u003C\u002Fp>\u003Cp>ZDNET 提到的模型是 \u003Ca href=\"https:\u002F\u002Fblogs.microsoft.com\u002Fblog\u002F2026\u002F06\u002F02\u002Fintroducing-our-first-reasoning-model\u002F\">MAI-Thinking-1\u003C\u002Fa>，Microsoft 在 Build 發表它，說是 35B 參數，主打 multi-step agentic tasks。文中也提到它在 SWE Bench Pro 的 coding 表現，跟 \u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fnews\u002Fclaude-opus-4-6\">Anthropic Opus 4.6\u003C\u002Fa> 接近。這組訊號很明確：Microsoft 想切進 enterprise workflow，尤其是 tool use、code generation、以及需要多步推理的任務。\u003C\u002Fp>\u003Cp>我看這種「第一顆正式推理模型」的時候，通常不會先問它會不會贏，而是先問它能不能持續迭代。很多公司發第一顆 serious model 時都會很熱鬧，但真正難的是後面：能不能把模型變成產品能力，不要變成研究部門的展示櫃。Microsoft 的優勢是分發、企業關係、還有龐大的產品面，這些比單次 benchmark 更實際。\u003C\u002Fp>\u003Cp>實操寫法很簡單：只要看到「我們的第一顆 X 模型」這種句子，我就把它當成 capability signal，不當成採購結論。我要問三件事：它是不是適合我的任務、我能不能順手接進現有 stack、以及這家公司有沒有能力持續把它修好。這三個問題比「它是不是很厲害」有用太多。\u003C\u002Fp>\u003Cp>還有一件事別偷懶：去看 system card、benchmark 註解、價格和授權。第一顆模型可以很重要，但還是可能不適合你的團隊。重要跟好用不是同一件事。\u003C\u002Fp>\u003Ch2>Benchmark 不是答案，只是壓縮過的線索\u003C\u002Fh2>\u003Cblockquote>“It scored similarly on the SWE Bench Pro benchmark test for coding as Anthropic Opus 4.6.”\u003C\u002Fblockquote>\u003Cp>翻譯一下就是：Microsoft 想用大家熟悉的 coding benchmark 進場。合理，因為現在很多 agentic 工作就是從 coding 開始的。但問題也在這裡，benchmark 只能告訴你一部分，不能直接告訴你能不能上線。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780610597051-9erw.png\" alt=\"Microsoft 首個推理模型怎麼看\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>我一直覺得 benchmark 像是把一團亂麻壓成一個數字。這很方便，真的很方便，但也很危險。因為一旦大家忘了它是壓縮過的，就會開始拿數字當真相。實際上我看過太多團隊：某模型在一個 benchmark 上很漂亮，結果一進 production 就開始亂呼叫工具、上下文一長就失憶、或者遇到半截資訊就開始亂補答案。\u003C\u002Fp>\u003Cp>ZDNET 這種 tracker 比較好的地方，是它不只給分數，還會把分數放進「這代表什麼」的脈絡裡。這一層很重要，不然 benchmark 只是在做數字收藏。真正有用的是：這個分數對你的工作到底有沒有意義。\u003C\u002Fp>\u003Cp>我自己的做法是，每次看到 benchmark，我都先補三個欄位：這是什麼 benchmark、它測的是什麼、它沒測到什麼。像 coding 模型，我會特別看 tool reliability、長上下文、還有拒答行為；像 reasoning 模型，我會問它到底是多步推理比較穩，還是只是講得比較像那回事。\u003C\u002Fp>\u003Cul>\u003Cli>Benchmark 名字不等於能力全貌。\u003C\u002Fli>\u003Cli>單一分數不能代表所有 workflow。\u003C\u002Fli>\u003Cli>要看 lab 表現跟 production 表現的落差。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>安全、授權、資料來源，現在就是模型品質的一部分\u003C\u002Fh2>\u003Cblockquote>“The company also noted that enterprise users can trust this model for any use because it was trained only on clean, commercially safe data.”\u003C\u002Fblockquote>\u003Cp>也就是說，Microsoft 把「資料來源乾不乾淨」直接包成產品賣點。老實講，這不再是附帶資訊了。只要你碰到企業場景、客戶資料、法務敏感區、或是要把模型接進 production，資料來源和授權就是評估的一部分，不是發表會最後才順手提一下的備註。\u003C\u002Fp>\u003Cp>這也是 tracker 寫法比一般新聞稿有價值的地方。它不只說模型來了，還把風險姿態一起攤開。因為現在模型市場不只是比誰輸出更順，還在比誰能把法務、採購、合規這些麻煩降到最低。這些東西很無聊，但無聊才是企業真的會卡住的地方。\u003C\u002Fp>\u003Cp>我開會看 AI 導入時，最常見的三方拉扯就是：工程想要最好用的模型、法務想要最少風險的模型、採購想要最不貴的模型。你如果不把資料來源、授權、賠償條款、政策支援這些東西放進評估表，最後只會把問題留到上線前才爆。\u003C\u002Fp>\u003Cp>實操上，我現在會直接問：訓練資料怎麼來的？權利主張是什麼？有沒有商用保護或 indemnity？如果廠商開始閃，就先記下來。不是每個 use case 都需要同等嚴格，但只要碰到 customer-facing、finance、health 或 production code，我就不想在法務上賭運氣。\u003C\u002Fp>\u003Cp>還有一點很現實：安全不是只有「會不會講壞話」，也包括模型會不會在錯的地方裝懂、會不會把你帶進合規地雷。這些都算品質。\u003C\u002Fp>\u003Ch2>Agentic coding 的節奏變快，代表你不能再把模型當固定零件\u003C\u002Fh2>\u003Cblockquote>“The quick turnaround from 5.4 to 5.4 — less than two months — indicates how rapidly agentic coding is accelerating OpenAI’s model release cycle.”\u003C\u002Fblockquote>\u003Cp>這句原文看起來有點怪，但重點很清楚：\u003Ca href=\"\u002Ftag\u002Fagentic-coding\">agentic coding\u003C\u002Fa> 的更新節奏正在加速，整個市場都被拖著跑。名字怎麼寫、版本怎麼編，反而沒那麼重要；重要的是，模型迭代速度已經快到你不能把它當成一個靜態元件。\u003C\u002Fp>\u003Cp>我看這種節奏變化，第一個反應不是興奮，是戒心。因為只要一家大廠開始縮短 release cycle，其他家就得跟。這會直接影響你怎麼做系統設計。以前你可能還想說「這顆模型我接了，半年內應該不會大變」。現在這種想法太天真了。模型今天好用，不代表兩個月後同樣好用。\u003C\u002Fp>\u003Cp>所以我現在會把模型層當成 moving target 來設計。不是悲觀，是務實。你要有 versioned prompts、有自動化 eval、有 rollback path，還要接受同一條 workflow 可能會因為模型更新而換行為。這不是額外成本，這是基本配備。\u003C\u002Fp>\u003Cp>實操寫法：每次換模型，不要只跑一輪 demo。你要跑固定測試集、\u003Ca href=\"\u002Fnews\u002Fdenver-hail-map-209-spotter-reports-zh\">記錄\u003C\u002Fa>失敗案例、比較工具呼叫順序、以及看它在長任務裡會不會飄掉。尤其是 agentic 系統，模型一更新，整條鏈路都可能變。你如果不先假設它會變，之後就只能邊上線邊救火。\u003C\u002Fp>\u003Cp>這件事很煩，但比起假裝世界不會動，還是老實一點比較省事。\u003C\u002Fp>\u003Ch2>用 tracker，不要用記憶力硬背整個市場\u003C\u002Fh2>\u003Cblockquote>“Our Model Release Tracker helps you make sense of where models stand relative to each other, and whether they’re worth a deeper look.”\u003C\u002Fblockquote>\u003Cp>翻譯一下就是：不要試著把所有模型都背起來，沒意義。名稱越來越像，版本越來越密，廠商還很愛把相鄰更新包裝成新物種。你如果靠腦子記，最後只會把自己搞亂。\u003C\u002Fp>\u003Cp>我喜歡 tracker 這種格式，因為它把混亂變成流程。先看這顆模型做什麼，再看它跟誰比，最後決定要不要花時間測。這比一篇又一篇發表文好用太多，因為它幫我把注意力從「新不新」拉回到「值不值得碰」。\u003C\u002Fp>\u003Cp>我自己在整理團隊內部模型筆記時，也會用同樣的欄位：它是做什麼的、為什麼值得看、跟競品差在哪、有哪些風險。這樣寫的好處是，當工程、PM、法務一起看時，大家不用先讀完十篇新聞才知道在討論什麼。\u003C\u002Fp>\u003Cp>實操上，你可以直接做一個簡單的 markdown tracker，放在 repo、Notion 或 \u003Ca href=\"\u002Ftag\u002Fgoogle\">Google\u003C\u002Fa> Doc 都行。重點不是排版漂亮，而是每顆模型都用同一套欄位記錄。這樣你下次看到新模型，才不會從頭查資料查到懷疑人生。\u003C\u002Fp>\u003Cul>\u003Cli>固定欄位，比漂亮版面重要。\u003C\u002Fli>\u003Cli>每次更新都寫下你的團隊 verdict。\u003C\u002Fli>\u003Cli>把 rollback 和 follow-up 一起記，別只記亮點。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>可抄的模板\u003C\u002Fh2>\u003Cpre>\u003Ccode># AI Model Release Tracker（可直接複製版）\n\n## 1) 基本資料\n- Model name:\n- Vendor:\n- Release date:\n- Source URL:\n- Version \u002F family:\n\n## 2) 這顆模型到底在做什麼\n- One-liner:\n- Main task:\n- Best-fit scenario:\n\n## 3) 跟誰比\n- Primary competitor:\n- Secondary competitor:\n- What it beats:\n- What it still loses on:\n\n## 4) Benchmark 只記你真的在意的\n- Benchmark name:\n- Score \u002F result:\n- What it measures:\n- What it does NOT measure:\n- Production risk it may hide:\n\n## 5) 安全 \u002F 法務 \u002F 採購\n- Training data notes:\n- Commercial use status:\n- Indemnity \u002F policy support:\n- Data retention \u002F privacy notes:\n- Red flags:\n\n## 6) 工程落地判斷\n- Integration effort: low \u002F medium \u002F high\n- Prompt changes needed:\n- Tool-use reliability:\n- Long-context behavior:\n- Rollback plan:\n\n## 7) 團隊結論\n- Test now \u002F wait \u002F skip:\n- Why:\n- Owner:\n- Follow-up date:\n- Final note:\n\u003C\u002Fcode>\u003C\u002Fpre>\u003Cp>這段我會故意寫得很無聊，因為越花俏的 tracker 越沒人維護。你要的是快速比較，不是收藏模型發表史。\u003C\u002Fp>\u003Cp>這篇拆解主要來自 ZDNET 的 tracker 文章：\u003Ca href=\"https:\u002F\u002Fwww.zdnet.com\u002Farticle\u002Fai-model-release-tracker\u002F\">https:\u002F\u002Fwww.zdnet.com\u002Farticle\u002Fai-model-release-tracker\u002F\u003C\u002Fa>。我寫的判讀框架和模板是我自己整理的，原始模型資訊則來自 ZDNET 與 Microsoft 的發表頁 \u003Ca href=\"https:\u002F\u002Fblogs.microsoft.com\u002Fblog\u002F2026\u002F06\u002F02\u002Fintroducing-our-first-reasoning-model\u002F\">Microsoft Build post\u003C\u002Fa>，benchmark 背景可再對照 \u003Ca href=\"https:\u002F\u002Fwww.swebench.com\u002F\">SWE Bench\u003C\u002Fa> 與 \u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fnews\u002Fclaude-opus-4-6\">Anthropic\u003C\u002Fa> 的公開說明。\u003C\u002Fp>","我把 ZDNET 的模型 tracker 拆成一套可抄的評估框架，讓你不用吞完 PR 也能判斷新 AI 模型值不值得碰。","www.zdnet.com","https:\u002F\u002Fwww.zdnet.com\u002Farticle\u002Fai-model-release-tracker\u002F",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780610598250-8v5r.png","industry","zh","da398326-d4e1-4926-9317-cfaba566a173",[17,18,19,20,21],"reasoning model","model tracker","benchmark","agentic coding","AI release evaluation",[23,24,25],"模型發表要放進競品與工作情境裡看，不能只看官方稿。","Benchmark 只能當線索，不能直接當採購答案。","把模型層當成會變動的系統，先準備版本化與 rollback。",1,"2026-06-04T22:02:49.319184+00:00","2026-06-04T22:02:49.297+00:00","fe20f6f6-432b-47bf-a410-a5f516d885ed",{"tags":31,"relatedLang":41,"relatedPosts":45},[32,34,36,37,39],{"name":18,"slug":33},"model-tracker",{"name":21,"slug":35},"ai-release-evaluation",{"name":19,"slug":19},{"name":20,"slug":38},"agentic-coding",{"name":17,"slug":40},"reasoning-model",{"id":15,"slug":42,"title":43,"language":44},"microsoft-first-reasoning-model-tracker-plain-english-en","Microsoft’s first reasoning model tracker in plain English","en",[46,52,58,64,70,76],{"id":47,"slug":48,"title":49,"cover_image":50,"image_url":50,"created_at":51,"category":13},"d28385dc-cdbc-4a19-b05c-fc54d18e509b","alphabet-anthropic-deal-matters-more-than-hype-zh","為什麼 Alphabet 與 Anthropic 的合作比熱度更重要","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780618666785-0smr.png","2026-06-05T00:17:21.626438+00:00",{"id":53,"slug":54,"title":55,"cover_image":56,"image_url":56,"created_at":57,"category":13},"6ea8328e-e00d-4d72-a4a1-87f5317bbc18","why-model-release-feeds-matter-more-zh","為什麼 model-release feeds 比 model-launch …","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780611467055-48ut.png","2026-06-04T22:17:15.391238+00:00",{"id":59,"slug":60,"title":61,"cover_image":62,"image_url":62,"created_at":63,"category":13},"58fe51d5-e1c0-4b6d-9033-c40eb1f4f811","efrain-juarez-player-to-liga-mx-coach-zh","Efraín Juárez：從球員到Liga MX教練","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780606983453-d55c.png","2026-06-04T21:02:35.135418+00:00",{"id":65,"slug":66,"title":67,"cover_image":68,"image_url":68,"created_at":69,"category":13},"d1218662-3c24-4bd5-8fdd-826164864369","peft-vs-full-fine-tuning-zh","PEFT vs 全量微調","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780603379788-d2wm.png","2026-06-04T20:02:31.805871+00:00",{"id":71,"slug":72,"title":73,"cover_image":74,"image_url":74,"created_at":75,"category":13},"791faf8a-031f-4843-856a-2fe1dd7bef11","denver-hailstorm-weather-infrastructure-risk-zh","為什麼丹佛冰雹提醒我們：天氣就是基礎設施風險","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780601581653-sptw.png","2026-06-04T19:32:32.181958+00:00",{"id":77,"slug":78,"title":79,"cover_image":11,"image_url":11,"created_at":80,"category":13},"4923364e-f9c3-42fc-ae92-89ee5a822575","how-to-hire-mlops-engineer-2026-zh","怎麼招到 MLOps 工程師","2026-06-04T19:17:26.372485+00:00",[82,87,92,97,102,107,112,117,122,127],{"id":83,"slug":84,"title":85,"created_at":86},"ee073da7-28b3-4752-a319-5a501459fb87","ai-in-2026-what-actually-matters-now-zh","2026 AI 真正重要的事","2026-03-26T07:09:12.008134+00:00",{"id":88,"slug":89,"title":90,"created_at":91},"83bd1795-8548-44c9-9a7e-de50a0923f71","trump-ai-framework-power-speech-state-preemption-zh","川普 AI 框架瞄準電力、言論與州權","2026-03-26T07:12:18.695466+00:00",{"id":93,"slug":94,"title":95,"created_at":96},"ea6be18b-c903-4e54-97b7-5f7447a612e0","nvidia-gtc-2026-big-ai-announcements-zh","NVIDIA GTC 2026 重點拆解","2026-03-26T07:14:26.62638+00:00",{"id":98,"slug":99,"title":100,"created_at":101},"4bcec76f-4c36-4daa-909f-54cd702f7c93","claude-users-spreading-out-and-getting-better-zh","Claude 用戶更分散，也更會用","2026-03-26T07:22:52.325888+00:00",{"id":103,"slug":104,"title":105,"created_at":106},"bd903b15-2473-4178-9789-b7557816e535","openclaw-raises-hard-question-for-ai-models-zh","OpenClaw 逼問 AI 模型價值","2026-03-26T07:24:54.707486+00:00",{"id":108,"slug":109,"title":110,"created_at":111},"eeac6b9e-ad9d-4831-8eec-8bba3f9bca6a","gap-google-gemini-checkout-fashion-search-zh","Gap 把結帳搬進 Gemini","2026-03-26T07:28:23.937768+00:00",{"id":113,"slug":114,"title":115,"created_at":116},"0740e53f-605d-4d57-8601-c10beb126f3c","google-pushes-gemini-transition-to-march-2026-zh","Google 把 Gemini 轉換延到 2026 年 3…","2026-03-26T07:30:12.825269+00:00",{"id":118,"slug":119,"title":120,"created_at":121},"e660d801-2421-4529-8fa9-86b82b066990","metas-llama-4-benchmark-scandal-gets-worse-zh","Meta Llama 4 分數風波又擴大","2026-03-26T07:34:21.156421+00:00",{"id":123,"slug":124,"title":125,"created_at":126},"183f9e7c-e143-40bb-a6d5-67ba84a3a8bc","accenture-mistral-ai-sovereign-enterprise-deal-zh","Accenture 攜手 Mistral AI 賣主權 AI","2026-03-26T07:38:14.818906+00:00",{"id":128,"slug":129,"title":130,"created_at":131},"191d9b1b-768a-478c-978c-dd7431a38149","mistral-ai-faces-its-hardest-year-yet-zh","Mistral AI 迎來最硬的一年","2026-03-26T07:40:23.716374+00:00"]