Cloudflare 把爬蟲變成付費入口
Cloudflare 新預設把混合用途 AI 爬蟲擋下來,逼出版方把搜尋、訓練、代理存取拆開,還能直接做付費控管。

Cloudflare 把混合用途 AI 爬蟲擋下來,逼出版方把搜尋、訓練、代理存取拆開,還能直接做付費控管。
我盯著 AI 爬蟲啃內容站已經一陣子了,老實說,整個狀況很醜。搜尋流量、訓練流量、agent 流量,全混在一起,像是大家都假裝之後不用收尾。以前我還能安慰自己,反正網站就是公開的;但真輪到你付 CDN、付頻寬、付內容成本時,你就會發現,免費被抓走的不是資料,是你的毛利。
最煩的是預設值一直很爛。爬蟲只要在某個地方說自己是 search,在另一個地方又說自己是 AI,整套規則就變成漏洞工廠。出版方要的是曝光,不是把自己的內容變成別人的免費輸入管線。Cloudflare 這次比較像是終於承認:搜尋、訓練、代理,這三件事根本不是同一件事。
我會拆 TechCrunch 的這篇報導,因為 Cloudflare 這次的做法不是一句「尊重 robots.txt」就能講完。它把政策往基礎設施層往下壓,這件事對開發者跟出版方都很實際。我也會順手連到 Cloudflare、You.com、Ceramic.ai,不然只看二手轉述很容易看歪。
Cloudflare 不再把所有爬蟲當同一種人
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
“Starting on September 15, 2026, Cloudflare’s default settings will block ‘mixed-use’ crawlers from any pages that host ads.”
翻譯一下就是:Cloudflare 開始把「混合用途」爬蟲當成問題,而不是方便。以前一個 bot 可以同時說自己是搜尋、又是訓練、還能做 agent,現在這種模糊身份比較難混過去。

我喜歡這個改法,因為它終於把那個最髒的灰色地帶講出來。搜尋索引器、訓練抓取器、會即時讀頁的 agent,這三種東西不是同一種工作,只是都在打 HTTP 而已。以前大家把這些混在一起,等於默認網站 owner 要自己當 bot 法務。
重點其實是 default。大多數站長根本不會每個進階設定都打開來研究,他們就是沿用預設、上線、繼續忙別的。Cloudflare 現在把預設改掉,意思就是:你如果不特別處理,混合用途 crawler 會先卡住。
Cloudflare 說這個改動會套用到新客戶、新站點,以及所有現有 free customer。這不是小打小鬧,這是想直接把一大段公開網路流量的基準線往前推。
實操上,我如果在管一個內容站,第一件事不是罵 bot,而是先盤點:哪些爬蟲我真的要?搜尋要不要?摘要要不要?訓練要不要?agent 來讀付費內容有沒有商業理由?把意圖分開,才有辦法管。
- 先用「意圖」定義 bot,不要只看 user-agent。
- 把搜尋索引、訓練、agent 存取拆開管理。
- 在 2026-09-15 前檢查預設值,不要等被動挨打。
出版方不是不想被找到,是不想白送內容
Cloudflare 這次踩得很準,因為它抓到出版方最常見的矛盾:大家想被搜尋到,但不想把內容免費餵給 AI 公司。這個痛點我看太多次了,過去的解法不是太空泛,就是太容易被忽略。
Cloudflare 現在做的是給出版方一個實際的閘門。特別是廣告支撐的站,最容易被大量爬。它們需要流量,但也需要保住頁面本身的經濟模型。你不能一邊靠廣告活,一邊讓 bot 把內容抽乾,最後只剩下伺服器帳單。
我最在意的那句話,是 Cloudflare 說網站 owner 想要內容能被 search 和 AI service 找到,但也想防止智慧財產被免費送出去。這才是核心問題。被看見,不等於被授權;能被索引,不等於能被拿去訓練或重組成別人的產品。
我之前就碰過這種事。某個內容型產品站,搜尋 bot 很正常,但有些 AI crawler 的行為就很怪:抓得勤、抓得深、還反覆重抓沒變的頁面。最難的不是全部封掉,而是判斷哪些是合理存取,哪些只是借你的內容做自己的生意。
實操寫法很簡單:先寫一份 bot policy,直接列出你允許什麼。搜尋索引可以嗎?snippet 可以嗎?訓練可不可以?摘要可不可以?agent 讀取需不需要付費?不要再用「視情況而定」這種空話。
- 把 bot 規範寫成白話,不要只留給律師看。
- 廣告頁和付費頁分開處理,不要同一套規則硬套。
- 記錄哪種 bot 行為真的帶來曝光,哪種只是吃資源。
Google 先把搜尋和 AI 切開,其他人就別再裝死
Cloudflare 這次點名的「世界最大搜尋引擎」,不用繞,講的就是 Google。它真正不爽的地方不是 Google 有搜尋,而是 Google 讓客戶很難在維持可被搜尋的同時,又不被 AI 系統順手拿去用。

Google 的回應路線是丟出 Google Extended,讓站長可以選擇不要被拿去訓練或餵 Gemini / Vertex API,但不影響 Search 收錄。這個區分很重要,因為 Google 等於在說:工具我早就給了。Cloudflare 的意思則是:很好,那其他人也該照這個標準來。
這裡就是政策開始變硬的地方。如果一個大搜尋玩家可以把搜尋 crawl 跟 AI 使用拆開,那「太難分」這個理由就很難站得住腳。技術詞彙大家早就會講了,缺的是逼大家真的分開的壓力。
而且 Googlebot 仍然會抓 Search,包含 AI Overviews 和 AI Mode 這類功能。這正是出版方抱怨的那種混在一起:你說你是搜尋,但實際上內容最後去哪裡,站長根本不容易追。
實操上,如果你在做 AI 產品,請把 crawler 的用途文件寫到站長看得懂、也能執行的程度。你如果是出版方,就把 Google、Cloudflare、其他 AI 供應商的說法放在同一張表比對。不要把「相信我們」當政策。
Pay Per Crawl 只是熱身,真正要做的是按使用付費
Cloudflare 之前就已經在推 Pay Per Crawl,讓網站可以對 AI bot 抓取收費。這次的公告再往前一步,變成「Pay Per Use」。名字有點像行銷部門想出來的,但概念比單純抓取收費更有用。
白話講,網站應該在內容真的創造價值時收費,而不是只在頁面被 fetch 的時候收費。這差很多。抓一頁是一回事,但拿這頁去回答問題、生成摘要、支援 agent workflow,那才是價值轉移真正發生的地方。
我猜很多 AI 團隊會開始不舒服,因為以前那個不平衡交易很簡單:抓便宜、訓練便宜、變現很貴。現在如果基礎設施層開始讓出版方按使用收費,這種不對等就沒那麼好藏。
Cloudflare 還說,超過 50% 的 AI crawler 流量其實是在重抓沒變的頁面。這種數字很有感,因為它直接告訴你:很多 bot traffic 根本沒在做有用的事,只是在重複問同一批 bytes。
實操寫法:如果你是 AI 團隊,先量你的 re-fetch 比例;如果你是出版方,先看 bot traffic 到底有沒有帶來分發,還是只是燒成本;如果你是平台商,別再只用 request volume 訂價,應該改看價值創造。
Cloudflare 把政策變成產品介面
這段我覺得最重要。Cloudflare 不是只發一篇文章叫大家自律,它是把 crawler policy 直接做成可操作的控制項。這表示站長不用自己生一個合規團隊,也能真的執行。
這就是它跟一般「請尊重 robots.txt」說教文的差別。Cloudflare 卡在流量中間,它一改預設值,政策就不再只是紙上談兵,而是會真的影響請求怎麼走。
同時,它也在改經濟結構。Cloudflare 說,如果出版方選擇 opt in,可以在 You.com 的搜尋結果裡或讓 You.com 存取付費內容時拿到報酬。它也說其他 AI 公司可以依自己的工作方式客製模型。聽起來很彈性,但你也可以把它理解成:Cloudflare 正在當內容方和 AI vendor 之間的談判層。
我看過太多平台變化,模式都很像:一旦 edge provider 變成 gatekeeper,政策就會長成產品。這對出版方可能是好事,但你也要看清楚條款,因為你的收入會真的綁在上面。
實操上,出版方應該把 bot monetization 當成一條收入管道來測;AI 公司則要決定自己是要當那個乾淨付費的供應商,還是一直被預設封鎖的那個。
真正的考題,是混合用途爬蟲會不會自己拆開
Cloudflare 說它希望這些預設改動,能逼 mixed-use crawler 把搜尋、agent、訓練拆開。這才是它真正想要的結果,不是懲罰,是分流。
這聽起來很無聊,但無聊在這裡是好事。Web 已經被模糊的 crawler intent 搞太久了。你如果要搜尋存取,那就說你是搜尋;你如果要訓練資料,那就明講;你如果要替使用者做 agent 動作,那也應該可見。一直假裝自己同時是三種角色,只會讓人越來越不信任。
對老實的 AI vendor 來說,這反而是好消息。Cloudflare 明講,清楚、透明、意圖明確的 bot 會比較容易拿到存取。換句話說:你如果把 crawler 做乾淨,可能有路;你如果一直變形,摩擦只會越來越大。
我自己會從這個政策學到的,是 web 正在往明確的 access contract 走,不再是默認授權。只要你的產品依賴內容,你就要能說清楚:為什麼能抓、抓來做什麼、內容方能拿到什麼。
實操寫法:把 crawler stack 做一次盤點。必要時拆成多個 bot,每個 bot 只負責一種用途,文件、速率、權限都分開。你如果連 bot 的用途都講不成一句話,站長大概也不會信你。
可抄的模板
# 出版方 AI 爬蟲政策模板
## Bot 存取政策
我們允許搜尋索引,用於內容發現。
我們不允許訓練用途,除非另外簽授權。
我們只在使用者明確要求時,才允許 agent 存取。
付費內容、摘要、重用行為,可能需要收費。
## 允許的 bot 意圖
- 搜尋索引
- 搜尋結果 snippet 生成
- 經授權的訓練存取
- 使用者要求的 agent 讀取
## 禁止的 bot 意圖
- 未揭露用途的隱藏訓練爬取
- 不說明目的的混合用途 crawler
- 沒有正當理由反覆重抓未變更頁面
- 未經允許大量抽取付費內容
## Bot 身份要求
每個 crawler 必須揭露:
- Bot 名稱
- 公司名稱
- 用途:搜尋、訓練、agent 或其他
- 聯絡信箱
- 驗證方式
- 要求的 rate limit
## 存取規則
### 公開頁
公開頁可供搜尋索引。
公開頁僅在用途揭露清楚時,才可被 AI bot 抓取。
### 付費頁
付費頁預設封鎖。
付費頁可在書面授權下,開放訓練或 agent 存取。
### 廣告支撐頁
廣告頁預設封鎖 mixed-use crawler。
只有在 crawler 明確拆分搜尋、訓練、agent 用途時,才可放行。
## 商業條款
如果內容被用來在搜尋結果、摘要或 agent 回應中創造價值,存取可能需要付費。
計價可依以下方式:
- Requests
- 存取頁數
- 使用到的獨特內容
- 創造的價值
## 重抓規則
Bot 不得反覆抓取未變更頁面,除非:
- 頁面有變動
- Bot 正在驗證新鮮度
- Bot 依照付費合約運作
## 執行方式
違規 bot 可在 edge 直接拒絕。
重複違規可觸發 rate limit 或永久封鎖。
## 給 AI vendor 的備註
如果你的 crawler 同時服務多種用途,請拆成不同 bot。
如果你的意圖不清楚,預設會被擋。
如果你想要存取,請清楚揭露內容會怎麼被使用。
這段我會直接拿去當站點政策底稿,再依自己的商業模式縮減。重點不是法律文案有多漂亮,而是不要再假裝所有 crawler 都一樣,逼意圖浮上來。
如果我今天要真的上線,我會先從最簡單的三分法開始:搜尋 bot、訓練 bot、agent bot。接著決定每一類能碰哪些內容、要不要收費、什麼算違規。這樣就夠了,先把混亂壓下來,比把營運團隊變成法院還實際。
原始來源:TechCrunch。這篇內容是我根據 Sarah Perez 的報導、Cloudflare 公告,以及我自己的實務判斷整理出來的;模板段落則是我衍生後整理成可直接使用的版本。