[IND] 5 分鐘閱讀OraCore 編輯部

Anthropic 指控 Alibaba 大量蒸餾 Claude

Anthropic 指控 Alibaba 透過 25,000 個假帳號與 2,880 萬次 Claude 呼叫,蒐集輸出訓練競品模型。這起爭議把模型蒸餾、API 濫用與資料治理,直接拉到企業級規模。

分享 LinkedIn
Anthropic 指控 Alibaba 大量蒸餾 Claude

Anthropic 指控 Alibaba 用假帳號與數千萬次 Claude 呼叫,蒐集輸出訓練競品模型。

這件事不是單純的政策違規。它碰到的是 AI 產業最怕的事:你的模型回答,可能變成別人的訓練資料。

Anthropic 說,規模大到不像零星測試。25,000 個假帳號,外加 2,880 萬次 Claude 互動,聽起來就是系統化操作。

項目數字意義
假帳號數25,000像是有組織的批量操作
Claude 互動次數28.8 million代表資料蒐集規模很大
指向對象Claude熱門前沿 LLM,輸出很有訓練價值

Anthropic 指控了什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

Anthropic 的說法很直接。有人用大量假帳號去呼叫 Claude,再把回應拿去訓練別的模型。講白了,就是把別人的 API 當資料工廠。

Anthropic 指控 Alibaba 大量蒸餾 Claude

這裡的重點不是「有沒有用蒸餾」。蒸餾本來就是 AI 開發常見手法。重點是,你有沒有授權、怎麼抓資料、抓到什麼程度。

如果是未經同意的大量擷取,那就不是一般工程技巧。這會碰到服務條款、資安控管,甚至法律問題。Anthropic Newsroom 近年一直強調使用限制與監控,這次等於是自己把槍口對準濫用案例。

“We are seeing a rising tide of AI misuse.” — Dario Amodei, Anthropic CEO
  • 25,000 個帳號,像是有工具在批次輪替。
  • 2,880 萬次互動,足以形成大規模語料。
  • Claude 的輸出品質高,特別適合拿來做 instruction tuning。
  • API 濫用會把產品使用,變成資料收割。

為什麼這組數字很刺眼

25,000 個假帳號,不像臨時起意。這種數字通常代表自動化、代理池,還有一套躲 rate limit 的流程。

2,880 萬次互動也不是小事。這種量級,已經不是「試看看」而已,而是長時間、持續性的蒐集。

這也是 AI 業界現在最頭痛的地方。模型輸出很有用,但也很容易被拿去當訓練資料。你提供越好的 API,別人越想把你的回答變成自己的模型能力。

  • 25,000 帳號可支援分散式查詢。
  • 2,880 萬次呼叫可快速堆出訓練集。
  • 高品質輸出越多,蒸餾價值越高。
  • 規模一大,問題就從產品濫用變成競爭風險。

說真的,這就是 API 時代的陰影面。你賣的是智慧回答,對方買到的可能是資料來源。

Alibaba 牽涉到哪裡

這次被點名的是 Alibaba Group。但真正該查的,不只是公司名稱。還要看是內部團隊、外包商,還是某個合作單位在操作。

Anthropic 指控 Alibaba 大量蒸餾 Claude

大公司常常有很多層。研究團隊、產品團隊、雲端部門、合作夥伴,全部都可能碰到同一套基礎設施。責任歸屬沒釐清前,外界很難只看一個名字就下結論。

Alibaba 自己也有 AI 佈局,像 Qwen。所以這個指控一旦成立,外界一定會追問:資料從哪來,誰拿去訓練,內控在哪裡失靈。

  • 誰建立了 25,000 個帳號?
  • 誰付了 2,880 萬次呼叫的成本?
  • 資料最後進了訓練集,還是只做評估?
  • 有沒有違反服務條款或安全政策?

這些問題比網路吵架重要多了。AI 爭議最後都會回到證據。

拿其他 AI 濫用案例來看

這種事不是第一次發生。OpenAIGoogle DeepMind、Anthropic 這類公司,早就面對 prompt scraping、帳號濫用、API 批量查詢。

問題一直都在,只是以前沒有這麼大聲。當模型越來越好用,輸出就越值錢。有人會想辦法把輸出壓縮、重組,再拿去訓練自己的系統。

這不是理論題。這是商業現實。你做出一個能穩定回應的 LLM,等於也做出一個很吸引人的資料來源。

  • API 濫用是所有大模型供應商都會遇到的事。
  • 蒸餾本身不違法,前提是有授權。
  • 未授權擷取會變成資安與法務問題。
  • 規模越大,越容易踩到紅線。

對開發者來說,這代表監控不能只看 latency 和 error rate。還要看帳號行為、查詢模式、異常流量。

對產品團隊來說,這也很現實。你想開放 API,就得接受有人會想辦法把你的模型吃乾抹淨。

這件事對產業的意思

AI 產業現在很像一場拉鋸。模型公司想更嚴格控管。使用者和競爭者則一直找漏洞。兩邊都知道,輸出本身就是價值。

如果 Anthropic 的數字站得住腳,之後大家會更重視驗證、登入、風控與稽核。這類成本會上升,而且不會只出現在 Anthropic。

我覺得這才是重點。不是誰被罵得比較兇,而是整個產業會不會開始把「防資料外流」當成基本配備。

  • 模型供應商會加強異常偵測。
  • 企業客戶會更在意資料來源。
  • API 價格可能反映更多風控成本。
  • 訓練資料治理會變成採購條件。

這也會影響 SaaS、雲端服務,還有所有把 LLM 接進產品的團隊。你以為你在用 API,其實你也在參與一場資料攻防戰。

接下來該看什麼

下一步要看 Anthropic 會不會拿出更多證據。像是登入紀錄、IP 分布、帳號關聯,或是流量模式。如果證據夠硬,這案子可能會變成業界參考案例。

如果指控最後站不穩,市場也不會當沒事。因為所有模型公司都會更緊張,接著把審核、驗證、封鎖機制再往上加。

講白了,這場爭議提醒大家一件事:AI 競爭不只看 benchmark。還要看誰能守住資料邊界。開發者接下來最好假設一件事,模型輸出一定會有人想拿去再訓練。

你如果在做 AI 產品,現在就該檢查帳號風控、API 配額、異常查詢偵測。這種事拖下去,通常只會更貴。