標籤
1 篇文章
Rootly AI Labs 用 100 筆 GitHub bug 來測 Llama 4,結果顯示它在選 PR 的編碼任務上落後於 Llama 3.3、DeepSeek v3.1 與多個 coding 模型。