Anthropic 指控 Alibaba 大量蒸餾 Claude
Anthropic 指控 Alibaba 透過 25,000 個假帳號與 2,880 萬次 Claude 呼叫,蒐集輸出訓練競品模型。這起爭議把模型蒸餾、API 濫用與資料治理,直接拉到企業級規模。

Anthropic 指控 Alibaba 用假帳號與數千萬次 Claude 呼叫,蒐集輸出訓練競品模型。
這件事不是單純的政策違規。它碰到的是 AI 產業最怕的事:你的模型回答,可能變成別人的訓練資料。
Anthropic 說,規模大到不像零星測試。25,000 個假帳號,外加 2,880 萬次 Claude 互動,聽起來就是系統化操作。
| 項目 | 數字 | 意義 |
|---|---|---|
| 假帳號數 | 25,000 | 像是有組織的批量操作 |
| Claude 互動次數 | 28.8 million | 代表資料蒐集規模很大 |
| 指向對象 | Claude | 熱門前沿 LLM,輸出很有訓練價值 |
Anthropic 指控了什麼
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
Anthropic 的說法很直接。有人用大量假帳號去呼叫 Claude,再把回應拿去訓練別的模型。講白了,就是把別人的 API 當資料工廠。

這裡的重點不是「有沒有用蒸餾」。蒸餾本來就是 AI 開發常見手法。重點是,你有沒有授權、怎麼抓資料、抓到什麼程度。
如果是未經同意的大量擷取,那就不是一般工程技巧。這會碰到服務條款、資安控管,甚至法律問題。Anthropic Newsroom 近年一直強調使用限制與監控,這次等於是自己把槍口對準濫用案例。
“We are seeing a rising tide of AI misuse.” — Dario Amodei, Anthropic CEO
- 25,000 個帳號,像是有工具在批次輪替。
- 2,880 萬次互動,足以形成大規模語料。
- Claude 的輸出品質高,特別適合拿來做 instruction tuning。
- API 濫用會把產品使用,變成資料收割。
為什麼這組數字很刺眼
25,000 個假帳號,不像臨時起意。這種數字通常代表自動化、代理池,還有一套躲 rate limit 的流程。
2,880 萬次互動也不是小事。這種量級,已經不是「試看看」而已,而是長時間、持續性的蒐集。
這也是 AI 業界現在最頭痛的地方。模型輸出很有用,但也很容易被拿去當訓練資料。你提供越好的 API,別人越想把你的回答變成自己的模型能力。
- 25,000 帳號可支援分散式查詢。
- 2,880 萬次呼叫可快速堆出訓練集。
- 高品質輸出越多,蒸餾價值越高。
- 規模一大,問題就從產品濫用變成競爭風險。
說真的,這就是 API 時代的陰影面。你賣的是智慧回答,對方買到的可能是資料來源。
Alibaba 牽涉到哪裡
這次被點名的是 Alibaba Group。但真正該查的,不只是公司名稱。還要看是內部團隊、外包商,還是某個合作單位在操作。

大公司常常有很多層。研究團隊、產品團隊、雲端部門、合作夥伴,全部都可能碰到同一套基礎設施。責任歸屬沒釐清前,外界很難只看一個名字就下結論。
Alibaba 自己也有 AI 佈局,像 Qwen。所以這個指控一旦成立,外界一定會追問:資料從哪來,誰拿去訓練,內控在哪裡失靈。
- 誰建立了 25,000 個帳號?
- 誰付了 2,880 萬次呼叫的成本?
- 資料最後進了訓練集,還是只做評估?
- 有沒有違反服務條款或安全政策?
這些問題比網路吵架重要多了。AI 爭議最後都會回到證據。
拿其他 AI 濫用案例來看
這種事不是第一次發生。OpenAI、Google DeepMind、Anthropic 這類公司,早就面對 prompt scraping、帳號濫用、API 批量查詢。
問題一直都在,只是以前沒有這麼大聲。當模型越來越好用,輸出就越值錢。有人會想辦法把輸出壓縮、重組,再拿去訓練自己的系統。
這不是理論題。這是商業現實。你做出一個能穩定回應的 LLM,等於也做出一個很吸引人的資料來源。
- API 濫用是所有大模型供應商都會遇到的事。
- 蒸餾本身不違法,前提是有授權。
- 未授權擷取會變成資安與法務問題。
- 規模越大,越容易踩到紅線。
對開發者來說,這代表監控不能只看 latency 和 error rate。還要看帳號行為、查詢模式、異常流量。
對產品團隊來說,這也很現實。你想開放 API,就得接受有人會想辦法把你的模型吃乾抹淨。
這件事對產業的意思
AI 產業現在很像一場拉鋸。模型公司想更嚴格控管。使用者和競爭者則一直找漏洞。兩邊都知道,輸出本身就是價值。
如果 Anthropic 的數字站得住腳,之後大家會更重視驗證、登入、風控與稽核。這類成本會上升,而且不會只出現在 Anthropic。
我覺得這才是重點。不是誰被罵得比較兇,而是整個產業會不會開始把「防資料外流」當成基本配備。
- 模型供應商會加強異常偵測。
- 企業客戶會更在意資料來源。
- API 價格可能反映更多風控成本。
- 訓練資料治理會變成採購條件。
這也會影響 SaaS、雲端服務,還有所有把 LLM 接進產品的團隊。你以為你在用 API,其實你也在參與一場資料攻防戰。
接下來該看什麼
下一步要看 Anthropic 會不會拿出更多證據。像是登入紀錄、IP 分布、帳號關聯,或是流量模式。如果證據夠硬,這案子可能會變成業界參考案例。
如果指控最後站不穩,市場也不會當沒事。因為所有模型公司都會更緊張,接著把審核、驗證、封鎖機制再往上加。
講白了,這場爭議提醒大家一件事:AI 競爭不只看 benchmark。還要看誰能守住資料邊界。開發者接下來最好假設一件事,模型輸出一定會有人想拿去再訓練。
你如果在做 AI 產品,現在就該檢查帳號風控、API 配額、異常查詢偵測。這種事拖下去,通常只會更貴。