標籤

LLM benchmarks

LLM 基準測試用來比較模型在知識、數學推理、幻覺率、長上下文與對話品質上的表現，像 BenchLM、AIME 這類榜單常反映模型升級的實際差異，也影響選型與部署判斷。

4 篇文章

LLM 基準別對職能，不再看單一分數

產業動態/6月28日

LLM 基準別對職能，不再看單一分數

把 2026 LLM 基準分數翻成工作適配度，並附可直接複製的自訂評測模板。

10 款可本地跑的開源 LLM，2026 這樣選

產業動態/6月12日

10 款可本地跑的開源 LLM，2026 這樣選

10 款可本地部署的開源 LLM，從 8GB 到 136GB VRAM 都有對應選擇，適合比對推理、寫程式、長上下文與代理任務。

5 個最值得先看的 AI 基準

產業動態/6月9日

5 個最值得先看的 AI 基準

300+ 個 AI 基準集中比較，先看 5 項就能判斷模型在推理、寫碼、視覺與工具呼叫上的實力。

5 個 LLM 基準測試

產業動態/5月19日

5 個 LLM 基準測試

5 個基準測試幫你判斷模型強弱、看懂分數失真，並選出最適合商務採購的測試。