Why Jensen Huang Is Wrong Abo…
Jensen Huang is wrong: today’s AI systems are not AGI, and calling them that confuses benchmark wins, business value, and genuine general intelligence.

Jensen Huang is wrong: today’s AI systems are not AGI.
把一個能寫程式、能摘要文件、能在某些基準上拿高分的系統,直接稱作通用人工智慧,是把商業里程碑誤當成科學結論。現在的模型確實很強,但它們仍會在長對話中丟失上下文、在壓力下幻覺、在多步推理中失穩,也會在一個場景裡表現驚人、換個場景就崩掉。這些不是小瑕疵,而是「還沒到 AGI」的證據。
第一個論點
能力清單不等於整體智能。現在的 foundation models 可以寫 code、回答專業問題、甚至幫人做產品原型,但這些勝利多半是局部的。它們證明模型在某些輸入分佈下很強,不證明它有一個穩定、統一的世界模型。OpenAI、Anthropic、Google 的公開測試都反覆顯示同一件事:模型可能在數學題或 coding benchmark 上表現亮眼,卻在一致性檢查、跨輪次追蹤、或需要自我修正的任務裡失手。這不是「差一點」而已,而是能力沒有被整合成一個整體。

人類不會因為某人很會做一類題目,就說他已經具備一般智能。一般智能的標準,是能在陌生情境中轉移能力,而且不會一換規則就散架。2023 到 2024 年間,多個模型在 MMLU、HumanEval 這類測試上大幅進步,但同時也在長上下文、工具調用、和多步規劃上暴露脆弱性。這種「單點很強、整體不穩」的特徵,正是專才系統,不是通才系統。
第二個論點
第二個問題在於,scale 是策略,不是心智理論。更大的模型、更多參數、更多算力,確實帶來更好的輸出品質。GPT-4、Claude 3、Gemini 1.5 這些模型都比前代更強,這點沒有人否認。但提升不等於質變。scale 可以放大模式匹配、記憶片段與語言流暢度,卻不會自動長出穩定抽象、因果控制、以及在不確定環境中的目標導向調適能力。把更多計算等同於更高層次的認知,是產業最常見、也最危險的偷換。
現實中的失敗模式已經很清楚。即使是最強模型,幻覺仍然存在,長文檔推理仍然不穩,工具使用仍需要精心設計的外部框架。以 2024 年多家團隊的評測來看,模型在長上下文任務中的可靠性會隨著序列拉長而下降,並不會因為上下文窗口變大就自動解決。若真是 AGI,這些應該只是邊角問題;但現在它們是結構性問題。模型更像是在更會產生答案,而不是更會理解問題。
反方可能怎麼說
最強的反對意見是:AGI 應該按結果定義,而不是按哲學定義。只要一個系統能跨足夠多的經濟任務工作,能從回饋中改進,能在高層工作中持續產生價值,那它就已經足夠「通用」了。從這個角度看,AGI 不是神秘門檻,而是移動目標;今天的 frontier models 已經夠接近,所以 Huang 的說法只是提前命名。

這個說法不是空話。科技產品本來就是先被採用,再被定義。沒有人等到哲學共識形成才承認平台改變了世界。若 AI 已經能寫作、編碼、搜尋、協作、規劃,從產品和市場角度看,它確實像一個通用系統。Huang 講的是部署語言,不是神經科學語言。
但這仍然不足以把它叫做 AGI,因為有用不等於一般智能。系統可以商業價值極高,卻仍缺乏真正通用認知所需的整合式、自我穩定結構。這不是文字遊戲,而是功能差異。現在的模型不會可靠地維持跨時間的意圖,不會穩健地修補自己的錯誤,也沒有展示出足以支撐 AGI 標籤的統一控制能力。把它們現在就叫作 AGI,只會把科學名詞降格成行銷獎章。
你能做什麼
如果你是工程師,別再用五分鐘 demo 當作能力證明,改去測長鏈路一致性、未知任務轉移、和壓力下的失敗模式。如果你是 PM,別因為模型在簡報裡看起來很廣,就把 AGI 當成對外敘事。如果你是創辦人,產品要建立在現有模型真正擅長的事上,而不是建立在「scale 已經解決認知」的幻想上。下一次突破,會來自更好的記憶、更好的控制、更好的整合,而不是單純更大的模型。在那之前,請把它們叫作它們真正的名字:強大,但還不是 AGI。





