Cloudflare 把爬蟲變成付費入口

OraCore Editors

返回首頁

[TOOLS] 2026年7月2日11 分鐘閱讀OraCore 編輯部

Cloudflare 把爬蟲變成付費入口

Cloudflare 新預設把混合用途 AI 爬蟲擋下來，逼出版方把搜尋、訓練、代理存取拆開，還能直接做付費控管。

Cloudflare

分享 LinkedIn

Cloudflare 把混合用途 AI 爬蟲擋下來，逼出版方把搜尋、訓練、代理存取拆開，還能直接做付費控管。

我盯著 AI 爬蟲啃內容站已經一陣子了，老實說，整個狀況很醜。搜尋流量、訓練流量、agent 流量，全混在一起，像是大家都假裝之後不用收尾。以前我還能安慰自己，反正網站就是公開的；但真輪到你付 CDN、付頻寬、付內容成本時，你就會發現，免費被抓走的不是資料，是你的毛利。

最煩的是預設值一直很爛。爬蟲只要在某個地方說自己是 search，在另一個地方又說自己是 AI，整套規則就變成漏洞工廠。出版方要的是曝光，不是把自己的內容變成別人的免費輸入管線。Cloudflare 這次比較像是終於承認：搜尋、訓練、代理，這三件事根本不是同一件事。

我會拆 TechCrunch 的這篇報導，因為 Cloudflare 這次的做法不是一句「尊重 robots.txt」就能講完。它把政策往基礎設施層往下壓，這件事對開發者跟出版方都很實際。我也會順手連到 Cloudflare、You.com、Ceramic.ai，不然只看二手轉述很容易看歪。

Cloudflare 不再把所有爬蟲當同一種人

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

“Starting on September 15, 2026, Cloudflare’s default settings will block ‘mixed-use’ crawlers from any pages that host ads.”

翻譯一下就是：Cloudflare 開始把「混合用途」爬蟲當成問題，而不是方便。以前一個 bot 可以同時說自己是搜尋、又是訓練、還能做 agent，現在這種模糊身份比較難混過去。

我喜歡這個改法，因為它終於把那個最髒的灰色地帶講出來。搜尋索引器、訓練抓取器、會即時讀頁的 agent，這三種東西不是同一種工作，只是都在打 HTTP 而已。以前大家把這些混在一起，等於默認網站 owner 要自己當 bot 法務。

重點其實是 default。大多數站長根本不會每個進階設定都打開來研究，他們就是沿用預設、上線、繼續忙別的。Cloudflare 現在把預設改掉，意思就是：你如果不特別處理，混合用途 crawler 會先卡住。

Cloudflare 說這個改動會套用到新客戶、新站點，以及所有現有 free customer。這不是小打小鬧，這是想直接把一大段公開網路流量的基準線往前推。

實操上，我如果在管一個內容站，第一件事不是罵 bot，而是先盤點：哪些爬蟲我真的要？搜尋要不要？摘要要不要？訓練要不要？agent 來讀付費內容有沒有商業理由？把意圖分開，才有辦法管。

先用「意圖」定義 bot，不要只看 user-agent。
把搜尋索引、訓練、agent 存取拆開管理。
在 2026-09-15 前檢查預設值，不要等被動挨打。

出版方不是不想被找到，是不想白送內容

Cloudflare 這次踩得很準，因為它抓到出版方最常見的矛盾：大家想被搜尋到，但不想把內容免費餵給 AI 公司。這個痛點我看太多次了，過去的解法不是太空泛，就是太容易被忽略。

Cloudflare 現在做的是給出版方一個實際的閘門。特別是廣告支撐的站，最容易被大量爬。它們需要流量，但也需要保住頁面本身的經濟模型。你不能一邊靠廣告活，一邊讓 bot 把內容抽乾，最後只剩下伺服器帳單。

我最在意的那句話，是 Cloudflare 說網站 owner 想要內容能被 search 和 AI service 找到，但也想防止智慧財產被免費送出去。這才是核心問題。被看見，不等於被授權；能被索引，不等於能被拿去訓練或重組成別人的產品。

我之前就碰過這種事。某個內容型產品站，搜尋 bot 很正常，但有些 AI crawler 的行為就很怪：抓得勤、抓得深、還反覆重抓沒變的頁面。最難的不是全部封掉，而是判斷哪些是合理存取，哪些只是借你的內容做自己的生意。

實操寫法很簡單：先寫一份 bot policy，直接列出你允許什麼。搜尋索引可以嗎？snippet 可以嗎？訓練可不可以？摘要可不可以？agent 讀取需不需要付費？不要再用「視情況而定」這種空話。

把 bot 規範寫成白話，不要只留給律師看。
廣告頁和付費頁分開處理，不要同一套規則硬套。
記錄哪種 bot 行為真的帶來曝光，哪種只是吃資源。

Google 先把搜尋和 AI 切開，其他人就別再裝死

Cloudflare 這次點名的「世界最大搜尋引擎」，不用繞，講的就是 Google。它真正不爽的地方不是 Google 有搜尋，而是 Google 讓客戶很難在維持可被搜尋的同時，又不被 AI 系統順手拿去用。

Google 的回應路線是丟出 Google Extended，讓站長可以選擇不要被拿去訓練或餵 Gemini / Vertex API，但不影響 Search 收錄。這個區分很重要，因為 Google 等於在說：工具我早就給了。Cloudflare 的意思則是：很好，那其他人也該照這個標準來。

這裡就是政策開始變硬的地方。如果一個大搜尋玩家可以把搜尋 crawl 跟 AI 使用拆開，那「太難分」這個理由就很難站得住腳。技術詞彙大家早就會講了，缺的是逼大家真的分開的壓力。

而且 Googlebot 仍然會抓 Search，包含 AI Overviews 和 AI Mode 這類功能。這正是出版方抱怨的那種混在一起：你說你是搜尋，但實際上內容最後去哪裡，站長根本不容易追。

實操上，如果你在做 AI 產品，請把 crawler 的用途文件寫到站長看得懂、也能執行的程度。你如果是出版方，就把 Google、Cloudflare、其他 AI 供應商的說法放在同一張表比對。不要把「相信我們」當政策。

Pay Per Crawl 只是熱身，真正要做的是按使用付費

Cloudflare 之前就已經在推 Pay Per Crawl，讓網站可以對 AI bot 抓取收費。這次的公告再往前一步，變成「Pay Per Use」。名字有點像行銷部門想出來的，但概念比單純抓取收費更有用。

白話講，網站應該在內容真的創造價值時收費，而不是只在頁面被 fetch 的時候收費。這差很多。抓一頁是一回事，但拿這頁去回答問題、生成摘要、支援 agent workflow，那才是價值轉移真正發生的地方。

我猜很多 AI 團隊會開始不舒服，因為以前那個不平衡交易很簡單：抓便宜、訓練便宜、變現很貴。現在如果基礎設施層開始讓出版方按使用收費，這種不對等就沒那麼好藏。

Cloudflare 還說，超過 50% 的 AI crawler 流量其實是在重抓沒變的頁面。這種數字很有感，因為它直接告訴你：很多 bot traffic 根本沒在做有用的事，只是在重複問同一批 bytes。

實操寫法：如果你是 AI 團隊，先量你的 re-fetch 比例；如果你是出版方，先看 bot traffic 到底有沒有帶來分發，還是只是燒成本；如果你是平台商，別再只用 request volume 訂價，應該改看價值創造。

Cloudflare 把政策變成產品介面

這段我覺得最重要。Cloudflare 不是只發一篇文章叫大家自律，它是把 crawler policy 直接做成可操作的控制項。這表示站長不用自己生一個合規團隊，也能真的執行。

這就是它跟一般「請尊重 robots.txt」說教文的差別。Cloudflare 卡在流量中間，它一改預設值，政策就不再只是紙上談兵，而是會真的影響請求怎麼走。

同時，它也在改經濟結構。Cloudflare 說，如果出版方選擇 opt in，可以在 You.com 的搜尋結果裡或讓 You.com 存取付費內容時拿到報酬。它也說其他 AI 公司可以依自己的工作方式客製模型。聽起來很彈性，但你也可以把它理解成：Cloudflare 正在當內容方和 AI vendor 之間的談判層。

我看過太多平台變化，模式都很像：一旦 edge provider 變成 gatekeeper，政策就會長成產品。這對出版方可能是好事，但你也要看清楚條款，因為你的收入會真的綁在上面。

實操上，出版方應該把 bot monetization 當成一條收入管道來測；AI 公司則要決定自己是要當那個乾淨付費的供應商，還是一直被預設封鎖的那個。

真正的考題，是混合用途爬蟲會不會自己拆開

Cloudflare 說它希望這些預設改動，能逼 mixed-use crawler 把搜尋、agent、訓練拆開。這才是它真正想要的結果，不是懲罰，是分流。

這聽起來很無聊，但無聊在這裡是好事。Web 已經被模糊的 crawler intent 搞太久了。你如果要搜尋存取，那就說你是搜尋；你如果要訓練資料，那就明講；你如果要替使用者做 agent 動作，那也應該可見。一直假裝自己同時是三種角色，只會讓人越來越不信任。

對老實的 AI vendor 來說，這反而是好消息。Cloudflare 明講，清楚、透明、意圖明確的 bot 會比較容易拿到存取。換句話說：你如果把 crawler 做乾淨，可能有路；你如果一直變形，摩擦只會越來越大。

我自己會從這個政策學到的，是 web 正在往明確的 access contract 走，不再是默認授權。只要你的產品依賴內容，你就要能說清楚：為什麼能抓、抓來做什麼、內容方能拿到什麼。

實操寫法：把 crawler stack 做一次盤點。必要時拆成多個 bot，每個 bot 只負責一種用途，文件、速率、權限都分開。你如果連 bot 的用途都講不成一句話，站長大概也不會信你。

可抄的模板

# 出版方 AI 爬蟲政策模板

## Bot 存取政策

我們允許搜尋索引，用於內容發現。
我們不允許訓練用途，除非另外簽授權。
我們只在使用者明確要求時，才允許 agent 存取。
付費內容、摘要、重用行為，可能需要收費。

## 允許的 bot 意圖

- 搜尋索引
- 搜尋結果 snippet 生成
- 經授權的訓練存取
- 使用者要求的 agent 讀取

## 禁止的 bot 意圖

- 未揭露用途的隱藏訓練爬取
- 不說明目的的混合用途 crawler
- 沒有正當理由反覆重抓未變更頁面
- 未經允許大量抽取付費內容

## Bot 身份要求

每個 crawler 必須揭露：
- Bot 名稱
- 公司名稱
- 用途：搜尋、訓練、agent 或其他
- 聯絡信箱
- 驗證方式
- 要求的 rate limit

## 存取規則

### 公開頁
公開頁可供搜尋索引。
公開頁僅在用途揭露清楚時，才可被 AI bot 抓取。

### 付費頁
付費頁預設封鎖。
付費頁可在書面授權下，開放訓練或 agent 存取。

### 廣告支撐頁
廣告頁預設封鎖 mixed-use crawler。
只有在 crawler 明確拆分搜尋、訓練、agent 用途時，才可放行。

## 商業條款

如果內容被用來在搜尋結果、摘要或 agent 回應中創造價值，存取可能需要付費。
計價可依以下方式：
- Requests
- 存取頁數
- 使用到的獨特內容
- 創造的價值

## 重抓規則

Bot 不得反覆抓取未變更頁面，除非：
- 頁面有變動
- Bot 正在驗證新鮮度
- Bot 依照付費合約運作

## 執行方式

違規 bot 可在 edge 直接拒絕。
重複違規可觸發 rate limit 或永久封鎖。

## 給 AI vendor 的備註

如果你的 crawler 同時服務多種用途，請拆成不同 bot。
如果你的意圖不清楚，預設會被擋。
如果你想要存取，請清楚揭露內容會怎麼被使用。

這段我會直接拿去當站點政策底稿，再依自己的商業模式縮減。重點不是法律文案有多漂亮，而是不要再假裝所有 crawler 都一樣，逼意圖浮上來。

如果我今天要真的上線，我會先從最簡單的三分法開始：搜尋 bot、訓練 bot、agent bot。接著決定每一類能碰哪些內容、要不要收費、什麼算違規。這樣就夠了，先把混亂壓下來，比把營運團隊變成法院還實際。

原始來源：TechCrunch。這篇內容是我根據 Sarah Perez 的報導、Cloudflare 公告，以及我自己的實務判斷整理出來的；模板段落則是我衍生後整理成可直接使用的版本。

// 相關文章

Cloudflare 把爬蟲變成付費入口

Cloudflare 不再把所有爬蟲當同一種人

訂閱 AI 趨勢週報

出版方不是不想被找到，是不想白送內容

Google 先把搜尋和 AI 切開，其他人就別再裝死

Pay Per Crawl 只是熱身，真正要做的是按使用付費

Cloudflare 把政策變成產品介面

真正的考題，是混合用途爬蟲會不會自己拆開

可抄的模板

Mistral OCR 4 把文件 AI 變成採購題

Visual Studio 把 Copilot 變工作流

Databricks 為模型服務加上 AI Gateway 推論表

BASIC09 迎來 LLVM 編譯器

9 個 Cursor 替代把鎖定感拆掉

AI视频工具的胜负手，已经不是单次生成而是全流程生产