[RSCH] 4 分鐘閱讀OraCore 編輯部

Rootly 測試:Llama 4 落後編碼模型

Rootly AI Labs 用 100 筆 GitHub bug 來測 Llama 4,結果顯示它在選 PR 的編碼任務上落後於 Llama 3.3、DeepSeek v3.1 與多個 coding 模型。

分享 LinkedIn
Rootly 測試:Llama 4 落後編碼模型

Rootly 的 AI Labs 用 100 筆 GitHub bug 來測 Llama 4,結果顯示它在編碼任務上落後於多個競品,甚至輸給 Llama 3.3。

這份測試於 2025 年 4 月 11 日公布,題目是讓模型從 4 個候選 pull request 中挑出正確答案。Rootly 說,這比一般大而全的基準更貼近開發者日常的 triage 流程

項目數值
Benchmark size100 GitHub bug issues
Llama 4 Maverick accuracy70%
Llama 4 overall accuracy69.5%
Llama 3.3 70B-Versatile72%
DeepSeek v3.1 gap6% ahead of Llama 4
GPT-4o gap18% ahead of Llama 4
Qwen2.5-Coder-32B accuracyAbout 90%

發生了什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

Rootly AI Labs 把 Llama 4 Scout、Maverick、Behemoth,和一批通用多模態模型、編碼調校模型放在同一個測試裡比。測法很直接:給一則 bug report,再給 4 個候選 PR,模型要選出正確配對。

Rootly 測試:Llama 4 落後編碼模型

這次沒有把完整 codebase 一起丟進去。Rootly 的意思很明確,這不是學術型大考,而是更像真實工單場景的快速判斷題,考的是模型能不能看懂問題、抓到修補方向。

  • Llama 4 在 Rootly 排名墊底,總準確率 69.5%。
  • Llama 3.3 70B-Versatile 拿到 72%,比 Llama 4 還高。
  • DeepSeek v3.1 比 Llama 4 高 6 個百分點。
  • GPT-4o 領先 Llama 4 18 個百分點,Qwen2.5-Coder-32B 和 OpenAI o3-mini 都接近 90%。

Rootly 也提到,他們無法重現 Meta 對 Llama 4 在 reasoning 和 coding 上優於 GPT-4o、Gemini 2.0 Flash、DeepSeek v3.1 的說法。這讓這份 benchmark 不只是分數比較,也變成對模型宣傳敘事的一次檢驗。

為什麼重要

對開發者來說,這種結果最直接的意義是:通用模型的名氣,不等於在編碼任務上的穩定表現。尤其是 bug triage、PR matching、incident response 這類工作,模型只要看錯一個線索,後面就可能整串偏掉。

對團隊採購或導入來說,選型邏輯也會跟著變。若目標是寫 code、挑修補方案、協助排查,Rootly 的數據更支持先看專門做 coding 的模型,例如 Qwen2.5-Coder-32B、o3-mini 或其他 code-tuned 系統,而不是只看一個通用旗艦版本。

但這份測試也有界線。樣本只有 100 題,而且資料集開源,代表它更像一個指標而非最終裁決。真正值得追問的是,Llama 4 的設計是否更偏向廣泛對話與多模態,而不是開發者最常碰到的修 bug 工作流。

補充背景

近一年來,模型競爭已經從「誰會聊天」轉向「誰能在特定工作裡少犯錯」。對企業來說,這種差異會直接反映在工時、審查成本和自動化品質上。對產品團隊來說,benchmark 也不再只是宣傳素材,而是選模型時的實用參考。

Rootly 測試:Llama 4 落後編碼模型

這也是為什麼像 Rootly 這類偏工作流的測試會受到關注。它們不測抽象推理總分,而是看模型能不能在有限資訊下做出正確判斷。這種題型更接近真實開發環境,也更容易暴露模型短板。

如果一個模型在一般評測裡表現亮眼,卻在 bug 對應上輸給舊版或專門模型,團隊就不該只看發布會上的總分。真正的問題不是 Llama 4 能不能聊天,而是它能不能幫工程師少花 30 分鐘找對那個 PR。

這次 Rootly 的答案很直接:至少在這個場景裡,Llama 4 沒跑贏。下一個要問的是,Meta 會先修 benchmark,還是先修產品定位?