AI agents 正進入真實軟體與金融

OraCore Editors

返回首頁

[AGENT] 2026年6月21日5 分鐘閱讀OraCore 編輯部

AI agents 正進入真實軟體與金融

AI agents 正從聊天工具走進軟體、政府與金融流程。它們能用工具、執行多步驟任務，也讓監管開始擔心自動化帶來系統性風險。

軟體開發 LLM AI agents agentic AI

分享 LinkedIn

AI agents 是能規劃、用工具、在有限人類介入下執行任務的軟體系統。

講白了，這東西已經不是研究室玩具。到 2025 年，它們開始進到寫程式、客服、政府試點、瀏覽器流程，還有金融風險討論。

更麻煩的是，監管單位已經在盯。因為一旦系統能自己下決定，問題就不是「能不能做」，而是「做錯時誰來收拾」。

項目	數字 / 事實
政府案例	2025 年 3 月，Kyle, Texas 導入 Salesforce AI agent
Windows 測試	2025 年 11 月，Microsoft 測試版加入可讀寫個人檔案的 agents
金融警告	監管單位把 agentic AI 視為可能的系統性風險來源
自動化類比	常拿自駕車的 level 2、3、4、5 來比
技術層次	Ken Huang 提出 7 層參考模型

AI agent 到底算什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

這個詞沒有硬性定義，這就是麻煩所在。你可以把它想成一種會追目標、會用工具、會連續做事的軟體。

有些 agent 只是加了工具的 chatbot。另一些就很兇，能搜尋網頁、呼叫 API、寫 code、記憶上下文，還能一路跑完多步驟流程。

所以現在大家講的 agent，範圍很大。從簡單客服機器人，到能處理內部資料的工作流系統，都可能被塞進這個名字裡。

能訂行程、回客服單、查內部資料。
常搭配 function calling 與 retrieval。
很多系統底層是 ChatGPT 類型的 LLM。
外面再包一層 orchestration，決定下一步做什麼。

為什麼金融圈特別緊張

最先拉警報的，不是消費產品，而是金融。因為金融系統最怕速度太快，錯誤一旦擴散，代價很高。

如果 agent 能接資料、做分析、再直接執行交易或風控動作，人工覆核就會變慢。問題是，金融最不缺的就是「快到來不及看」的事故。

這裡的風險分兩種。第一種是內部風險，像銀行或基金自己部署的 agent 做出錯誤判斷。第二種是外部風險，像工具供應商讓 agent 幫使用者觸發金融動作，結果開出新的攻擊面。

“Autonomy is a spectrum, and the amount of human supervision matters.” — Financial Times

這句話很直白。自主程度不是二選一，而是一條線。

只要人類監督少一點，風險就可能多一截。金融監管現在盯的，就是這條線怎麼畫。

現在已經用到哪裡

最明顯的落點是軟體開發。2025 年 8 月，New York Magazine 把軟體開發寫成最明確的使用場景。

到了 2025 年 10 月，The Information 又提到，coding agents 和客服是最主要的商業用途。這很合理，因為這兩塊最容易量化，也最容易先落地。

你會在 Cursor、OpenAI Codex、Microsoft、AWS、Google Cloud 看到這波產品化。

Salesforce Agentforce 被 Kyle, Texas 用在 311 服務。
美國 IRS 在 2025 年 11 月說要導入 Salesforce AI agents。
Windows 11 測試版加入可讀寫個人檔案的 agents。
ByteDance Doubao 也進到手機作業系統。

但別太快高潮。The Wall Street Journal 在 2025 年 11 月提到，不少公司上線後還沒看到 ROI。

這很像很多 AI 專案的老問題。demo 很猛，算帳很冷。

技術堆疊開始變得像正經系統

AI agents 正從臨時拼裝，走向比較正式的架構。Ken Huang 提出的 7 層參考模型，把它拆成 foundation models、data operations、agent frameworks、deployment、evaluation、security、agent ecosystem。

這種拆法很有用。因為真正難的，常常不是 model 本身，而是資料、檢索、觀測、權限與稽核。

講白了，LLM 只是腦袋。真正讓它能上班的，是外面那堆基礎建設。

Prompt chaining 讓任務一段接一段。
Routing 讓請求送去不同工具。
Parallelization 可以同時跑多路工作。
Planner-critic loop 用來互相檢查品質。

這些模式的共同目標很簡單。就是把 agent 變得可控一點。

但可控不等於安全。只要有一步出錯，後面就會一路放大。

自動化等級為什麼還吵不完

《Financial Times》拿自駕車來比喻，很好懂。現在多數 agent 大概像 level 2 或 level 3，自主性有限。

少數窄場景可以碰到 level 4。level 5 則還是理論值，離普遍部署還很遠。

問題是，level 2 也可能出大事。只要它能碰 email、檔案、瀏覽器、金流，錯一次就很痛。

所以真正的問題不是「它會不會思考」。而是「它在被發現前，能做多少事」。

Prompt injection 會把指令污染掉。
Tool abuse 會讓 agent 誤用外部工具。
Permission creep 會讓權限越開越大。
Unsafe execution path 會把錯誤直接送進系統。

這些風險都很土，但很真。

說真的，AI 出事常常不是因為太聰明，而是因為太敢動手。

這波不是只有技術問題

AI agents 之所以重要，是因為它們已經碰到產品、採購、法遵和治理。這不是單純的模型競賽。

如果公司只會做 demo，卻沒有權限控制、log、人工覆核和責任切分，那 agent 進到真實流程後就很危險。

反過來說，如果部署時把高風險動作卡住，agent 反而可能變成很實用的基礎軟體。像客服、資料整理、內部查詢，這些都很適合先做。

產業現在卡在一個很現實的點：能做的很多，敢放手的很少。

我覺得接下來最值得看的，不是 agent 又寫了多少 code，而是它到底能不能被稽核、被限制、被追責。誰先把這三件事做好，誰就比較有機會把 agent 從炫技變成日常工具。

// 相關文章

AI agents 正進入真實軟體與金融

AI agent 到底算什麼

訂閱 AI 趨勢週報

為什麼金融圈特別緊張

現在已經用到哪裡

技術堆疊開始變得像正經系統

自動化等級為什麼還吵不完

這波不是只有技術問題

Myseum 與 Scanon 的合作，是隱私優先審核的合理押注

AI 程式碼審查落地且不降品質

Crypto AI 代理的隱藏模型風險

Genie Code 把 Databricks 變 ML 指揮台

Manus 收入衝到 4.5 億美元年化

Microsoft Copilot Cowork 改按量計費