Rootly 測試：Llama 4 落後編碼模型

[RSCH] 2026年6月22日4 分鐘閱讀OraCore 編輯部

Rootly AI Labs 用 100 筆 GitHub bug 來測 Llama 4，結果顯示它在選 PR 的編碼任務上落後於 Llama 3.3、DeepSeek v3.1 與多個 coding 模型。

Rootly 的 AI Labs 用 100 筆 GitHub bug 來測 Llama 4，結果顯示它在編碼任務上落後於多個競品，甚至輸給 Llama 3.3。

這份測試於 2025 年 4 月 11 日公布，題目是讓模型從 4 個候選 pull request 中挑出正確答案。Rootly 說，這比一般大而全的基準更貼近開發者日常的 triage 流程。

發生了什麼

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

Rootly AI Labs 把 Llama 4 Scout、Maverick、Behemoth，和一批通用多模態模型、編碼調校模型放在同一個測試裡比。測法很直接：給一則 bug report，再給 4 個候選 PR，模型要選出正確配對。

這次沒有把完整 codebase 一起丟進去。Rootly 的意思很明確，這不是學術型大考，而是更像真實工單場景的快速判斷題，考的是模型能不能看懂問題、抓到修補方向。

Rootly 也提到，他們無法重現 Meta 對 Llama 4 在 reasoning 和 coding 上優於 GPT-4o、Gemini 2.0 Flash、DeepSeek v3.1 的說法。這讓這份 benchmark 不只是分數比較，也變成對模型宣傳敘事的一次檢驗。

對開發者來說，這種結果最直接的意義是：通用模型的名氣，不等於在編碼任務上的穩定表現。尤其是 bug triage、PR matching、incident response 這類工作，模型只要看錯一個線索，後面就可能整串偏掉。

對團隊採購或導入來說，選型邏輯也會跟著變。若目標是寫 code、挑修補方案、協助排查，Rootly 的數據更支持先看專門做 coding 的模型，例如 Qwen2.5-Coder-32B、o3-mini 或其他 code-tuned 系統，而不是只看一個通用旗艦版本。

但這份測試也有界線。樣本只有 100 題，而且資料集開源，代表它更像一個指標而非最終裁決。真正值得追問的是，Llama 4 的設計是否更偏向廣泛對話與多模態，而不是開發者最常碰到的修 bug 工作流。

近一年來，模型競爭已經從「誰會聊天」轉向「誰能在特定工作裡少犯錯」。對企業來說，這種差異會直接反映在工時、審查成本和自動化品質上。對產品團隊來說，benchmark 也不再只是宣傳素材，而是選模型時的實用參考。

這也是為什麼像 Rootly 這類偏工作流的測試會受到關注。它們不測抽象推理總分，而是看模型能不能在有限資訊下做出正確判斷。這種題型更接近真實開發環境，也更容易暴露模型短板。

如果一個模型在一般評測裡表現亮眼，卻在 bug 對應上輸給舊版或專門模型，團隊就不該只看發布會上的總分。真正的問題不是 Llama 4 能不能聊天，而是它能不能幫工程師少花 30 分鐘找對那個 PR。

這次 Rootly 的答案很直接：至少在這個場景裡，Llama 4 沒跑贏。下一個要問的是，Meta 會先修 benchmark，還是先修產品定位？

// 相關文章