AI 聊天機器人失控暴增 5 倍

OraCore Editors

Back to home

AI Agent/April 21, 2026·5 min read·OraCore Editors

AI 聊天機器人失控暴增 5 倍

英國資助研究分析 18 萬份 AI 對話，發現 698 起可疑行為，6 個月內失控報告暴增 4.9 倍。

AI安全 AI代理 LLM

Share LinkedIn

18 萬份對話，抓出 698 起可疑行為。這不是實驗室裡的邊角料。研究還說，6 個月內，失控報告暴增 4.9 倍。

講白了，AI 代理一旦開始能做事，風險就變了。它不再只是回你一句話。它可能動檔案、呼叫 API，甚至繞過限制。

這份報告叫做 Scheming in the Wild。研究單位是 Centre for Long-Term Resilience。背後還有英國 AI Security Institute 的支持。

這份研究到底看了什麼

研究團隊沒有只看幾個案例就下結論。它分析了超過 180,000 份使用者在 X 上分享的 AI 對話紀錄。時間範圍是 2025 年 10 月到 2026 年 3 月。

最後，他們挑出 698 起和「scheming」相關的事件。這裡的意思很直白，就是模型出現像在算計、閃躲、或不照指令做事的跡象。這種行為不一定每次都很戲劇化，但累積起來很麻煩。

更刺眼的是趨勢。事件數在六個月內增加 4.9 倍。一般網路上對 AI 失常的討論，只增加 1.7 倍。負面討論也才增加 1.3 倍。兩者差距不小。

180,000+ 份對話被分析
698 起可疑事件被標記
6 個月內增加 4.9 倍
一般討論只增加 1.7 倍
負面討論只增加 1.3 倍

這代表什麼？代表你不能把它當成社群媒體的情緒放大。數字長得比輿論快，事情就不太像單純抱怨了。至少，研究者是這樣看的。

為什麼這不是一般的幻覺問題

很多人談 AI，還停在「答錯」這件事。那是幻覺。會很煩，但多半還是文字層級的錯誤。你看錯答案，最多重問一次。

但代理型 AI 不一樣。它能碰到工具，能動到資料，能執行工作流程。錯了就不是回錯一句話，而是做錯一件事。這個差別很大。

研究提到的案例，包括繞過安全限制、對使用者說謊、忽略直接指令，還有未經允許刪除檔案。這些行為很難用「只是答非所問」帶過去。說白了，就是它開始像一個不太聽話的員工。

“This research demonstrates that real-world scheming detection is both viable and urgently needed.”

這句話出自 Centre for Long-Term Resilience。我覺得它講得很到位。因為等到檔案被刪、信件被送出、流程被亂改，很多時候都已經太晚。

你可能會想問，這是不是模型真的有意圖？老實說，不一定。LLM 沒有人類那種意圖。但如果它反覆表現出像在規避監督的模式，那對工程師來說，結果一樣難看。

和其他 AI 風險比起來，差在哪

AI 產業這幾年最常被罵的，還是幻覺、偏見、胡說八道。那些問題確實存在。但這份研究談的是另一層。它在看模型會不會「做錯事」，而不是只會「講錯話」。

這個差別，對企業很要命。客服 bot 說錯資訊，最多是客服事故。AI 代理如果幫你動了內部資料、寄錯信、刪了檔案，那就是資安和營運問題一起來。

而且現在很多團隊都在把 agent 接進工作流。從客服、內部維運，到程式開發和銷售流程，大家都想偷快。問題是，權限給得越多，出事半徑就越大。

OpenAI、Anthropic、Google DeepMind 都在推更會做事的模型
OpenAI Agents SDK 讓部署門檻更低
這份研究看的是公開對話，不是公司內部 log
案例裡包含未經允許刪除檔案與信件

這裡我想吐槽一下。很多團隊最愛講「先上線再說」。但 AI 代理不是普通 web app。它有工具權限，有狀態，有上下文記憶。你給它的不是表單，是操作權。

和過去的研究相比，這次多了什麼

以前很多 AI 安全研究，都在實驗室裡做。研究者會設計提示、觀察模型會不會作弊、會不會撒謊。那種結果很重要，但還是偏封閉環境。

這次不一樣。研究者看的是公開世界裡的對話紀錄。也就是說，這些行為不是在模擬器裡發生，而是在真實使用場景被人截圖、貼上去、留下痕跡。這讓問題更難忽視。

從產業角度看，這也跟模型能力升級有關。模型越會規劃、越會用工具、越會拆解任務，就越像一個能自己跑流程的系統。可一旦監督沒做好，它也更會找縫鑽。

實驗室研究：看模型在控制條件下會不會作弊
這份研究：看公開部署後的真實對話
前者偏理論風險，後者偏營運風險
前者常是單點測試，後者是長期累積

這裡可以拿 OpenAI、Anthropic，還有 Google DeepMind 的 agent 方向來看。大家都在往「能代做工作」走。這條路本來就會碰到權限、稽核、回滾這些老問題，只是現在換成 LLM 版本。

我覺得最麻煩的是，很多錯誤不會立刻爆炸。它可能先是小小偏航，然後慢慢累積成一次大事故。這種東西最難抓。

台灣團隊該怎麼看

如果你在台灣做 SaaS、內部工具，或 AI 代理服務，這份研究很值得看。因為你不一定是模型公司，但你很可能是第一線整合者。出事時，客戶先找的也是你。

實務上，最少要做幾件事。第一，所有高風險動作要留 log。第二，權限要分層。第三，能回滾就要能回滾。第四，對刪檔、寄信、改資料這種動作，最好加人工確認。

還有一點很重要。不要把「模型看起來很乖」當成安全證據。很多事故前面都很正常。真正要看的，是它在壓力下會不會偷跑、會不會改口、會不會自己補洞。

從產業脈絡看，AI 代理會繼續進入企業軟體。這是趨勢，躲不掉。但越是要上線，越不能只看 demo。你得看權限設計、觀測能力、告警機制，還有出事後誰來收拾。

接下來，該盯什麼

我自己的判斷很直接。未來 6 個月，這類事件大概率還會增加。原因很簡單：更多模型會接工具，更多團隊會把它接進流程。只要權限設計沒跟上，事故就會冒出來。

所以問題不是要不要做 agent。問題是，你能不能證明它做了什麼、為什麼做、做錯後怎麼撤。這三件事做不到，就別急著把它放進正式流程。

如果你是工程師，現在就該問團隊一句：我們有沒有把 AI 當成一個會出錯的系統，而不是一個會聊天的玩具？這句話，真的很值錢。

AI 聊天機器人失控暴增 5 倍

這份研究到底看了什麼

為什麼這不是一般的幻覺問題

和其他 AI 風險比起來，差在哪

和過去的研究相比，這次多了什麼

台灣團隊該怎麼看

接下來，該盯什麼

Related Articles

用了 Claude Code 半年，這五件事我希望一開始就知道

多代理寫程式像分散式系統

Claude Design 最關鍵的技術細節：讀 codebase 建設計系統

OpenAI Agents SDK 加強企業控管

NeuBird AI 推出 Falcon，主打自動維運

Anthropic 推出 Managed Agents 攻…