Rootly 測試:Llama 4 落後編碼模型
Rootly AI Labs 用 100 筆 GitHub bug 來測 Llama 4,結果顯示它在選 PR 的編碼任務上落後於 Llama 3.3、DeepSeek v3.1 與多個 coding 模型。

Rootly 的 AI Labs 用 100 筆 GitHub bug 來測 Llama 4,結果顯示它在編碼任務上落後於多個競品,甚至輸給 Llama 3.3。
這份測試於 2025 年 4 月 11 日公布,題目是讓模型從 4 個候選 pull request 中挑出正確答案。Rootly 說,這比一般大而全的基準更貼近開發者日常的 triage 流程。
| 項目 | 數值 |
|---|---|
| Benchmark size | 100 GitHub bug issues |
| Llama 4 Maverick accuracy | 70% |
| Llama 4 overall accuracy | 69.5% |
| Llama 3.3 70B-Versatile | 72% |
| DeepSeek v3.1 gap | 6% ahead of Llama 4 |
| GPT-4o gap | 18% ahead of Llama 4 |
| Qwen2.5-Coder-32B accuracy | About 90% |
發生了什麼
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
Rootly AI Labs 把 Llama 4 Scout、Maverick、Behemoth,和一批通用多模態模型、編碼調校模型放在同一個測試裡比。測法很直接:給一則 bug report,再給 4 個候選 PR,模型要選出正確配對。

這次沒有把完整 codebase 一起丟進去。Rootly 的意思很明確,這不是學術型大考,而是更像真實工單場景的快速判斷題,考的是模型能不能看懂問題、抓到修補方向。
- Llama 4 在 Rootly 排名墊底,總準確率 69.5%。
- Llama 3.3 70B-Versatile 拿到 72%,比 Llama 4 還高。
- DeepSeek v3.1 比 Llama 4 高 6 個百分點。
- GPT-4o 領先 Llama 4 18 個百分點,Qwen2.5-Coder-32B 和 OpenAI o3-mini 都接近 90%。
Rootly 也提到,他們無法重現 Meta 對 Llama 4 在 reasoning 和 coding 上優於 GPT-4o、Gemini 2.0 Flash、DeepSeek v3.1 的說法。這讓這份 benchmark 不只是分數比較,也變成對模型宣傳敘事的一次檢驗。
為什麼重要
對開發者來說,這種結果最直接的意義是:通用模型的名氣,不等於在編碼任務上的穩定表現。尤其是 bug triage、PR matching、incident response 這類工作,模型只要看錯一個線索,後面就可能整串偏掉。
對團隊採購或導入來說,選型邏輯也會跟著變。若目標是寫 code、挑修補方案、協助排查,Rootly 的數據更支持先看專門做 coding 的模型,例如 Qwen2.5-Coder-32B、o3-mini 或其他 code-tuned 系統,而不是只看一個通用旗艦版本。
但這份測試也有界線。樣本只有 100 題,而且資料集開源,代表它更像一個指標而非最終裁決。真正值得追問的是,Llama 4 的設計是否更偏向廣泛對話與多模態,而不是開發者最常碰到的修 bug 工作流。
補充背景
近一年來,模型競爭已經從「誰會聊天」轉向「誰能在特定工作裡少犯錯」。對企業來說,這種差異會直接反映在工時、審查成本和自動化品質上。對產品團隊來說,benchmark 也不再只是宣傳素材,而是選模型時的實用參考。

這也是為什麼像 Rootly 這類偏工作流的測試會受到關注。它們不測抽象推理總分,而是看模型能不能在有限資訊下做出正確判斷。這種題型更接近真實開發環境,也更容易暴露模型短板。
如果一個模型在一般評測裡表現亮眼,卻在 bug 對應上輸給舊版或專門模型,團隊就不該只看發布會上的總分。真正的問題不是 Llama 4 能不能聊天,而是它能不能幫工程師少花 30 分鐘找對那個 PR。
這次 Rootly 的答案很直接:至少在這個場景裡,Llama 4 沒跑贏。下一個要問的是,Meta 會先修 benchmark,還是先修產品定位?