史丹佛 2026 AI Index 圖表解讀

OraCore Editors

Back to home

Research/April 17, 2026·8 min read·OraCore Editors

史丹佛 2026 AI Index 圖表解讀

史丹佛 2026 AI Index 用圖表拆解 AI 現況：模型變快、成本變高、美中差距縮小，但評測和治理都追不上。

Stanford AI Index AI 2026 AI benchmark SWE-bench Verified 美中 AI 競爭

Share LinkedIn

如果你想看懂 2026 年的 AI 現況，先看一個數字：AI 資料中心現在可吃掉 29.6 gigawatts 電力。這大概等於紐約州的尖峰用電。另一個數字也很猛：全球超過一半的人，已在三年內用上 AI。

這份 Stanford AI Index 很像一份冷靜版戰報。它談模型、採用率、就業、法規和基礎設施。看完你會發現，AI 不是單一路線在衝。它是速度很快、花錢很兇、而且評分表跟不上節奏的技術。

說真的，這才是重點。模型一直變強，訓練和推論成本也一直往上走。大家都在追，包含企業、政府、研究者，還有那些做 benchmark 的人。只是很多人追得比 AI 慢。

AI 進步很快，但不是每條路都順

2026 AI Index 最直接的訊號，就是頂級模型還在持續進化。這種速度，幾年前講出來會像在吹牛。以 SWE-bench Verified 來看，軟體工程相關分數，從 2024 年左右的 60% 升到 2025 年接近 100%。對寫程式的人來說，這不是小事。

這代表什麼？代表 coding assistant、bug fixing、agent workflow 的使用方式都要重想。以前你可能把 AI 當輔助工具。現在你得把它當半個同事看。當然，前提是你有做好驗證，不然它也可能半夜幫你把 production 搞爆。

但報告也很直接：模型聰明度是鋸齒狀的。它可以在寫 code 時很強，卻在實體世界表現很差。像是物理推理、家務、長時間互動，這些都還很卡。這點很重要，因為會寫 code 的模型很實用，能穩定處理真實世界的模型，才是真的難。

報告也提到，有些 AI 系統已經在 PhD 等級的科學、數學、語言測試上，達到或超過人類專家表現。這聽起來很誇張，沒錯，確實誇張。但 benchmark 贏，不代表真實場景也穩。只要任務一變髒、一變長、一變開放，模型就容易露餡。

SWE-bench Verified 分數，從 2024 約 60% 升到 2025 接近 100%。
機器人只完成 12% 的居家任務。
Waymo 已在 5 個美國城市營運。
Baidu 的 Apollo Go 也在中國跑乘客服務。

美中差距很小，但強項完全不同

地緣競爭這件事，現在比很多人想的更接近。報告引用 Arena 的排名，也就是以前叫 LMSYS Chatbot Arena 的平台。從這些排名看，美國和中國在模型表現上幾乎貼身肉搏。

2023 年初，OpenAI 的 ChatGPT 還有明顯領先。到了 2024 年，Google 和 Anthropic 把差距拉近。2025 年 2 月，DeepSeek 的 R1 一度追平美國最強模型。這種節奏，老實說很難用單一冠軍來解釋。

到 2026 年 3 月，Anthropic 排名第一，xAI、Google、OpenAI 緊跟在後。中國的 DeepSeek 和 Alibaba 也沒有掉太遠。這代表競爭焦點不再只是誰先做出爆款模型，而是誰能把成本、穩定性、推論效率壓到更低。

更深一層的差別，在基礎設施和研究產出。美國估計有 5,427 座資料中心，數量是其他國家的 10 倍以上。中國則在 AI 論文、專利、機器人輸出上領先。講白了，美國模型肌肉比較大，中國工業面比較廣。

“I am stunned that this technology continues to improve, and it’s just not plateauing in any way,” said Yolanda Gil, a computer scientist at the University of Southern California and coauthor of the report.

我覺得這句話很準。很多人一直在猜 AI 何時撞牆。結果看起來，牆沒有來，天花板一直往上移。這也是為什麼現在不能只看模型名氣，要看它到底能不能穩定交付。

美國強在資本、前沿模型、資料中心。
中國強在論文、專利、機器人產出。
2026 年 3 月，Anthropic 排名第一。
DeepSeek R1 在 2025 年 2 月曾追平美國最強模型。

評測表，已經追不上產品了

如果你覺得 AI 的進步很難抓，原因之一就是評測本身跟不上。Stanford 報告很直白地說，模型很快就把 benchmark 天花板打穿了。有些測試設計得很爛。甚至有一個常見數學 benchmark，錯誤率高達 42%。

這種情況下，漂亮分數不一定有意義。模型可以在排行榜上很猛，實際上卻在對話、工具使用、流程切換時翻車。尤其是 agents 和 robots，標準化測試還很薄，很多根本還沒長出像樣的測法。

透明度也變差了。競爭越兇，OpenAI、Anthropic、Google DeepMind 這些公司，越少公開訓練 code、參數量、資料集大小。這讓外部驗證更難，也讓安全研究更卡。

所以現在看 benchmark，要多一層懷疑。它還是有用，但不能當全部。說白了，分數能看，但你得問：它到底漏了什麼？

一個常見數學 benchmark 的錯誤率達 42%。
訓練資料若直接碰到 benchmark，分數會膨脹。
AI agents 和 robots 的標準測試還不成熟。
大模型實驗室公開的訓練細節越來越少。

AI 已經在改變工作，但影響很不平均

AI 的普及速度，已經快過個人電腦和網際網路。報告說，全球超過一半的人，在 AI 主流化三年內就開始使用。還有 88% 的組織在用 AI，四分之三以上的大學學生也在用。這個擴散速度，真的很難裝沒看到。

勞動市場的影響比較難量化，但一些訊號已經出來。2025 年一份 Stanford 經濟研究指出，22 到 25 歲的軟體開發者就業，從 2022 年以來下滑接近 20%。這不代表 AI 是唯一原因，景氣和利率也有影響。但時間點很難忽略。

生產力提升則是真的有。報告引用的研究顯示，AI 在客服可提升 14% 生產力，在軟體開發可提升 26%。問題是，這些增益通常出現在結構清楚、輸出好驗證的工作。越需要判斷、脈絡、責任的工作，AI 就越容易卡住。

企業也開始重新算人力帳。2025 年 McKinsey 調查顯示，三分之一組織預期 AI 會在未來一年縮編，尤其是服務、供應鏈、軟體角色。這不是全面裁員，但已經足夠影響招募和職缺設計。

全球超過一半的人，在三年內開始用 AI。
88% 的組織在用 AI。
四分之三以上的大學學生在用 AI。
22 到 25 歲軟體開發者就業，從 2022 年起下滑近 20%。

法規開始追，但速度還是慢半拍

大家對 AI 的感受很分裂。Ipsos 的調查顯示，59% 的人覺得 AI 利大於弊，但 52% 的人也說它讓自己不安。這兩句其實可以同時成立。畢竟，誰看到一個會寫 code、會生圖、會聊天的系統，不會有一點怕。

信任落差更明顯。Pew Research Center 的調查指出，73% 的專家認為 AI 會改善工作方式，但美國一般民眾只有 23% 同意。工作是最大分歧點，教育和醫療也有差距。選舉和人際關係方面，兩邊都更保守。

法規正在動，但很不整齊。EU AI Act 已開始執行第一批禁令，包含預測性警政和情緒辨識。日本、南韓、義大利也通過國家級 AI 法律。美國這邊，聯邦和州政府則在拉扯，州議會已通過創紀錄的 150 項 AI 相關法案。

California 的 SB 53 和 New York 的 RAISE Act 很值得看。它們都偏向揭露、事故通報、吹哨保護。這比「先上線再說」的思路，明顯保守很多，也更像真的在管風險。

我覺得這份報告最刺眼的地方，就是治理永遠慢一拍。技術跑一個時鐘，監管跑另一個時鐘。只要這兩個時鐘差太多，每次新模型上線，大家就還是得重問一次：到底誰來定義什麼叫安全夠用？

接下來最該盯的是電力，不是口號

2026 AI Index 好看的地方，在於它不把 AI 說成單一故事。模型在進步，基礎設施帳單也在變大。benchmark 很脆，工作影響不平均，政策反應又慢半拍。這種混亂，才比較像真實世界。

如果要我做一個預測，我會說：接下來一年，AI 爭論會從「模型能不能做很厲害的事」，轉向「公司還能不能負擔一直擴張」。電力、水、晶片、法規，會跟模型品質一樣重要。你要看懂下一階段，得盯基礎設施數字，不只是分數。

如果你現在就在做 AI 產品，建議很簡單。不要只信 leaderboard。請直接拿你的資料測，測失敗模式，測成本，測部署後的延遲。很多時候，真正卡住你的不是能力，而是錢和落地。

如果你想接著看評測問題，可以回頭看我們整理的 AI benchmarks 為什麼開始失真。那篇和這份 Stanford 報告很接近，因為兩者都在講同一件事：分數表越來越難信，但風險卻越來越真。

史丹佛 2026 AI Index 圖表解讀

AI 進步很快，但不是每條路都順

美中差距很小，但強項完全不同

評測表，已經追不上產品了

AI 已經在改變工作，但影響很不平均

法規開始追，但速度還是慢半拍

接下來最該盯的是電力，不是口號

Related Articles

LLM 評審別只看平均分

LLM 會看地圖，卻撐不住長度

MM-WebAgent 讓網頁生成更一致