為什麼川普的自願式 AI 安全命令太弱
川普的新 AI 安全命令太弱,因為把前沿模型審查建立在自願提交上,無法穩定阻止高風險模型發布。

川普的自願式 AI 安全命令無法可靠阻止高風險模型發布。
這道命令的問題不是方向錯,而是力道太弱:它要求前沿 AI 實驗室自願把最強模型送審,而不是強制提交。這在表面上像是有秩序的監管,實際上卻沒有硬性執行力、沒有保證可見性,也沒有能力阻止一家把速度看得比風險更重要的公司。當模型已經能協助詐騙、網攻或生物安全濫用時,把審查設計成自願,等於把公共安全押在企業自律上。
第一個論點:自願審查會把錯誤誘因放大
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
第一個問題很直接:如果參與是可選的,最需要監督的公司,往往也是最有動機跳過監督的公司。競爭壓力最大的前沿團隊,最怕審查拖慢發佈節奏,於是最可能延後申報、降低揭露,甚至乾脆不配合。結果就是,這種制度獎勵願意遵守的人,卻很難碰到真正需要被約束的人。

這種模式在其他安全領域也看得見。自願標準通常只在企業想向客戶或投資人展示可信度時才有效,但前沿模型的發佈是一場高報酬的速度競賽。假如一個模型能先一步搶下市場,30 天的預發布審查就不是門檻,而只是建議。以一個依賴善意的框架來處理高風險技術,本身就是設計失敗。
第二個論點:30 天根本不夠看
就算公司願意配合,30 天也不足以真正評估前沿模型的風險面。測試一個模型是否會被濫用、是否容易越獄、是否會洩漏資料、是否能被下游惡意利用,絕不是填表式作業。它需要對抗式測試、紅隊攻防、文件審查,通常還得在修補後重測。把這些工作壓縮成一個月,只會得到表面合格與虛假的安全感。
更大的問題是,風險發現的節奏與發佈節奏根本不對稱。最嚴重的失敗常常不是在實驗室裡先被看見,而是在大規模部署後,數百萬使用者開始用各種方式壓測系統時才浮現。預發布審查可以抓到明顯缺陷,卻不能取代持續監測、事故通報與強制回滾權。沒有這些後備機制,這道命令只是把安全當成一次性關卡,而不是持續義務。
反方可能怎麼說
支持者會說,這已經是政治上最可行的路徑。自願框架上路快、較不容易引發產業反彈,也比較能隨技術變化調整。他們還會主張,過重的規則會凍結創新,把開發推到海外,最後只會做出一套大型企業才負擔得起的合規官僚體系。

這個說法不是沒有道理。過於僵硬的制度會變老,過度設計的審批流程也會獎勵文件而非真正的安全。但答案不是接受象徵性政策,而是建立強制、分級、可快速處理高風險模型的制度。政府既然能要求實驗室自願提交,就也能對超過明確能力門檻的系統要求提交。自願審查不是折衷方案,而是偽裝成政策的占位符。
你能做什麼
如果你是工程師、PM 或創辦人,不要把這道命令當成護身符。現在就建立自己的發佈門檻:先做紅隊測試,再上線;把已知失效模式寫清楚;保留回滾機制;並假設監管者最終會要證據,而不是承諾。如果你在做前沿系統,從一開始就按強制審查的標準設計,因為真正準備好面對硬性監管的團隊,等規則到來時反而會跑得更快。結論很簡單:自願式 AI 安全不夠用,依賴它的團隊,最不會為未來的監管做好準備。