Research/·8 min read·OraCore Editors

史丹佛 2026 AI Index 圖表解讀

史丹佛 2026 AI Index 用圖表拆解 AI 現況:模型變快、成本變高、美中差距縮小,但評測和治理都追不上。

Share LinkedIn
史丹佛 2026 AI Index 圖表解讀

如果你想看懂 2026 年的 AI 現況,先看一個數字:AI 資料中心現在可吃掉 29.6 gigawatts 電力。這大概等於紐約州的尖峰用電。另一個數字也很猛:全球超過一半的人,已在三年內用上 AI。

這份 Stanford AI Index 很像一份冷靜版戰報。它談模型、採用率、就業、法規和基礎設施。看完你會發現,AI 不是單一路線在衝。它是速度很快、花錢很兇、而且評分表跟不上節奏的技術。

說真的,這才是重點。模型一直變強,訓練和推論成本也一直往上走。大家都在追,包含企業、政府、研究者,還有那些做 benchmark 的人。只是很多人追得比 AI 慢。

AI 進步很快,但不是每條路都順

2026 AI Index 最直接的訊號,就是頂級模型還在持續進化。這種速度,幾年前講出來會像在吹牛。以 SWE-bench Verified 來看,軟體工程相關分數,從 2024 年左右的 60% 升到 2025 年接近 100%。對寫程式的人來說,這不是小事。

史丹佛 2026 AI Index 圖表解讀

這代表什麼?代表 coding assistant、bug fixing、agent workflow 的使用方式都要重想。以前你可能把 AI 當輔助工具。現在你得把它當半個同事看。當然,前提是你有做好驗證,不然它也可能半夜幫你把 production 搞爆。

但報告也很直接:模型聰明度是鋸齒狀的。它可以在寫 code 時很強,卻在實體世界表現很差。像是物理推理、家務、長時間互動,這些都還很卡。這點很重要,因為會寫 code 的模型很實用,能穩定處理真實世界的模型,才是真的難。

報告也提到,有些 AI 系統已經在 PhD 等級的科學、數學、語言測試上,達到或超過人類專家表現。這聽起來很誇張,沒錯,確實誇張。但 benchmark 贏,不代表真實場景也穩。只要任務一變髒、一變長、一變開放,模型就容易露餡。

  • SWE-bench Verified 分數,從 2024 約 60% 升到 2025 接近 100%。
  • 機器人只完成 12% 的居家任務。
  • Waymo 已在 5 個美國城市營運。
  • Baidu 的 Apollo Go 也在中國跑乘客服務。

美中差距很小,但強項完全不同

地緣競爭這件事,現在比很多人想的更接近。報告引用 Arena 的排名,也就是以前叫 LMSYS Chatbot Arena 的平台。從這些排名看,美國和中國在模型表現上幾乎貼身肉搏。

2023 年初,OpenAI 的 ChatGPT 還有明顯領先。到了 2024 年,GoogleAnthropic 把差距拉近。2025 年 2 月,DeepSeek 的 R1 一度追平美國最強模型。這種節奏,老實說很難用單一冠軍來解釋。

到 2026 年 3 月,Anthropic 排名第一,xAI、Google、OpenAI 緊跟在後。中國的 DeepSeek 和 Alibaba 也沒有掉太遠。這代表競爭焦點不再只是誰先做出爆款模型,而是誰能把成本、穩定性、推論效率壓到更低。

更深一層的差別,在基礎設施和研究產出。美國估計有 5,427 座資料中心,數量是其他國家的 10 倍以上。中國則在 AI 論文、專利、機器人輸出上領先。講白了,美國模型肌肉比較大,中國工業面比較廣。

“I am stunned that this technology continues to improve, and it’s just not plateauing in any way,” said Yolanda Gil, a computer scientist at the University of Southern California and coauthor of the report.

我覺得這句話很準。很多人一直在猜 AI 何時撞牆。結果看起來,牆沒有來,天花板一直往上移。這也是為什麼現在不能只看模型名氣,要看它到底能不能穩定交付。

  • 美國強在資本、前沿模型、資料中心。
  • 中國強在論文、專利、機器人產出。
  • 2026 年 3 月,Anthropic 排名第一。
  • DeepSeek R1 在 2025 年 2 月曾追平美國最強模型。

評測表,已經追不上產品了

如果你覺得 AI 的進步很難抓,原因之一就是評測本身跟不上。Stanford 報告很直白地說,模型很快就把 benchmark 天花板打穿了。有些測試設計得很爛。甚至有一個常見數學 benchmark,錯誤率高達 42%。

史丹佛 2026 AI Index 圖表解讀

這種情況下,漂亮分數不一定有意義。模型可以在排行榜上很猛,實際上卻在對話、工具使用、流程切換時翻車。尤其是 agents 和 robots,標準化測試還很薄,很多根本還沒長出像樣的測法。

透明度也變差了。競爭越兇,OpenAIAnthropicGoogle DeepMind 這些公司,越少公開訓練 code、參數量、資料集大小。這讓外部驗證更難,也讓安全研究更卡。

所以現在看 benchmark,要多一層懷疑。它還是有用,但不能當全部。說白了,分數能看,但你得問:它到底漏了什麼?

  • 一個常見數學 benchmark 的錯誤率達 42%。
  • 訓練資料若直接碰到 benchmark,分數會膨脹。
  • AI agents 和 robots 的標準測試還不成熟。
  • 大模型實驗室公開的訓練細節越來越少。

AI 已經在改變工作,但影響很不平均

AI 的普及速度,已經快過個人電腦和網際網路。報告說,全球超過一半的人,在 AI 主流化三年內就開始使用。還有 88% 的組織在用 AI,四分之三以上的大學學生也在用。這個擴散速度,真的很難裝沒看到。

勞動市場的影響比較難量化,但一些訊號已經出來。2025 年一份 Stanford 經濟研究指出,22 到 25 歲的軟體開發者就業,從 2022 年以來下滑接近 20%。這不代表 AI 是唯一原因,景氣和利率也有影響。但時間點很難忽略。

生產力提升則是真的有。報告引用的研究顯示,AI 在客服可提升 14% 生產力,在軟體開發可提升 26%。問題是,這些增益通常出現在結構清楚、輸出好驗證的工作。越需要判斷、脈絡、責任的工作,AI 就越容易卡住。

企業也開始重新算人力帳。2025 年 McKinsey 調查顯示,三分之一組織預期 AI 會在未來一年縮編,尤其是服務、供應鏈、軟體角色。這不是全面裁員,但已經足夠影響招募和職缺設計。

  • 全球超過一半的人,在三年內開始用 AI。
  • 88% 的組織在用 AI。
  • 四分之三以上的大學學生在用 AI。
  • 22 到 25 歲軟體開發者就業,從 2022 年起下滑近 20%。

法規開始追,但速度還是慢半拍

大家對 AI 的感受很分裂。Ipsos 的調查顯示,59% 的人覺得 AI 利大於弊,但 52% 的人也說它讓自己不安。這兩句其實可以同時成立。畢竟,誰看到一個會寫 code、會生圖、會聊天的系統,不會有一點怕。

信任落差更明顯。Pew Research Center 的調查指出,73% 的專家認為 AI 會改善工作方式,但美國一般民眾只有 23% 同意。工作是最大分歧點,教育和醫療也有差距。選舉和人際關係方面,兩邊都更保守。

法規正在動,但很不整齊。EU AI Act 已開始執行第一批禁令,包含預測性警政和情緒辨識。日本、南韓、義大利也通過國家級 AI 法律。美國這邊,聯邦和州政府則在拉扯,州議會已通過創紀錄的 150 項 AI 相關法案。

California 的 SB 53 和 New York 的 RAISE Act 很值得看。它們都偏向揭露、事故通報、吹哨保護。這比「先上線再說」的思路,明顯保守很多,也更像真的在管風險。

我覺得這份報告最刺眼的地方,就是治理永遠慢一拍。技術跑一個時鐘,監管跑另一個時鐘。只要這兩個時鐘差太多,每次新模型上線,大家就還是得重問一次:到底誰來定義什麼叫安全夠用?

接下來最該盯的是電力,不是口號

2026 AI Index 好看的地方,在於它不把 AI 說成單一故事。模型在進步,基礎設施帳單也在變大。benchmark 很脆,工作影響不平均,政策反應又慢半拍。這種混亂,才比較像真實世界。

如果要我做一個預測,我會說:接下來一年,AI 爭論會從「模型能不能做很厲害的事」,轉向「公司還能不能負擔一直擴張」。電力、水、晶片、法規,會跟模型品質一樣重要。你要看懂下一階段,得盯基礎設施數字,不只是分數。

如果你現在就在做 AI 產品,建議很簡單。不要只信 leaderboard。請直接拿你的資料測,測失敗模式,測成本,測部署後的延遲。很多時候,真正卡住你的不是能力,而是錢和落地。

如果你想接著看評測問題,可以回頭看我們整理的 AI benchmarks 為什麼開始失真。那篇和這份 Stanford 報告很接近,因為兩者都在講同一件事:分數表越來越難信,但風險卻越來越真。