[RSCH] 6 分鐘閱讀OraCore 編輯部

Mistral OCR 4 把文件變結構化資料

Mistral OCR 4 把 OCR 從純文字抽取,改成帶框、標籤與信心分數的文件資料。它支援 170 種語言,API 價格從每 1,000 頁 4 美元起。

分享 LinkedIn
Mistral OCR 4 把文件變結構化資料

Mistral OCR 4 把掃描文件轉成結構化資料,還附上框線、區塊標籤和信心分數。

Mistral AI 推出 Mistral OCR 4。這次不是單純辨識文字而已。它把頁面結構一起吐出來,對文件 AI 很實用。

官方給的數字也很直接。它支援 170 種語言,涵蓋 10 個語言群組。API 從每 1,000 頁 4 美元起,Batch API 則是 2 美元。若走 Mistral Studio 的 Document AI,價格是每 1,000 頁 5 美元。

指標數值意義
語言支援170 種適合跨國文件流程
API 價格每 1,000 頁 4 美元適合高流量 OCR 工作
Batch API 價格每 1,000 頁 2 美元適合非同步匯入
Document AI 價格每 1,000 頁 5 美元適合不想自己串流程的團隊
OlmOCRBench 分數85.20官方主打的 benchmark 成績

OCR 4 不只看字,還看版面

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

這版最重要的改變,是它回傳的不只是純文字。每個區塊都有 bounding box、block type,還有 inline confidence score。講白了,就是讓系統知道文字在哪裡,也知道它有多可靠。

Mistral OCR 4 把文件變結構化資料

這件事對文件 AI 很重要。你在做搜尋、RAG、發票解析、合約抽取時,版面資訊常常比字本身更有用。純文字會把欄位、表格、標題、註記全打散,後面再補回來很痛苦。

Mistral 這次的路線也很明確。它不是把 OCR 當成大模型的副產品,而是做成一個小而專的模型。對要處理大量文件的團隊來說,這種設計通常比較務實。

  • Bounding box 可直接標出文字位置。
  • Block type 有助分辨表格、標題、簽名。
  • Confidence score 可接人工複核流程。
  • 單一容器部署,適合內網或私有雲。

它也支援常見企業格式。像 PDF、DOC、PPT、OpenDocument 都能吃。這點看起來普通,但實務上很重要。真實世界的文件來源通常很雜,不會只給你乾淨掃描檔。

為什麼 Mistral 要強調結構

Mistral 很清楚,它賣的不是單一準確率。它想賣的是文件入口層。也就是把 OCR 變成搜尋、RAG、Agent 工作流的前置資料管線。

這個方向合理。只要模型能辨識區塊類型和信心分數,後面就能做引用定位、來源追蹤、人工審核。對企業來說,這比單純吐一坨文字更好用。

官方也丟了幾個 benchmark 數字。它說在 OlmOCRBench 拿到 85.20,OmniDocBench 則是 93.07。另有獨立標註者偏好測試,平均勝率 72%。

“We benchmarked OCR 4 against the leading agentic document parsers across a chart and figure dense financial QA dataset and reached equivalent accuracy at roughly 8x lower cost and 17x lower latency.” — Aidan Donohue, AI Engineer at Rogo

這段引述很有意思。因為它講的不是模型情懷,而是成本和延遲。文件系統能不能進 production,通常就卡在這兩個數字。快但貴,財務會嫌。便宜但不準,法務會先翻白眼。

benchmark 好看,但要看限制

Mistral 也花不少篇幅提醒 benchmark 會騙人。這點我覺得算誠實。OCR 本來就很髒,評分常常會因為 ground truth 錯誤、數學式寫法不同、欄位順序不同而失真。

Mistral OCR 4 把文件變結構化資料

像多欄排版、公式分段、頁首頁尾,這些都很容易讓分數失真。模型看起來差,不代表它真的差。反過來也一樣。只看 leaderboard,常常會選到不適合自己資料的東西。

所以實務上,OCR 4 應該拿你的文件測。不要只看官方分數。你如果手上是合約、研究論文、財報、掃描表單,結果會差很多。

  • 人類偏好測試涵蓋 600+ 文件。
  • 測試文件橫跨 12+ 種語言。
  • 官方說 Crawl Multilingual 評測拿到 0.98。
  • 它在 8 個語言群組都壓過競品。

多語言支援是這版很實際的賣點。Mistral 說它能處理 English、Western Europe、Eastern Europe、Middle Eastern、Chinese、East Asian、Southeast Asian,還有特殊語言群組。像 Hindi、Japanese、Georgian、Bengali、Armenian、Hebrew、Greek、Gujarati、Tamil、Malayalam、Kannada、Telugu 都在範圍內。

價格和部署,才是團隊真正會看的地方

現在有三種用法。第一種是直接 API,每 1,000 頁 4 美元。第二種是 Batch API,每 1,000 頁 2 美元。第三種是 Mistral Studio 的 Document AI,每 1,000 頁 5 美元。

這個價差很有意思。它其實在對三種人說話。開發者要控制力,Ops 要吞吐量,產品團隊要快速上線。Mistral 把這三條路都留著,算是很會賣。

自架也很重要。官方說可以單容器部署。這對金融、政府、醫療、法律場景很關鍵。這些地方的 OCR 往往不是抽字問題,而是資料治理問題。

如果拿來比,很多 OCR 工具不是太簡單,就是太重。OCR 4 想站在中間。它想保留結構化輸出,也想讓自架和批次匯入都能用。這種定位比純 OCR 工具更像文件基礎設施。

官方也明講限制。它不適合醫療診斷、法律建議、高風險金融決策、安全關鍵系統,也不處理音訊和影片。這樣講很正常。至少它沒亂吹。

對台灣團隊來說,重點是管線,不是模型名

如果你在做搜尋、RAG、發票抽取、文件歸檔,OCR 4 會很有吸引力。因為它把 OCR、版面分析、信心分數收在一起。少掉很多 glue code,也少掉很多手工補洞。

我會建議先拿混合語言文件測。像中英混排、掃描 PDF、表格、章節標題、欄位很多的表單,都丟進去。不要先看準確率,先看人工修正時間。

這種產品最後能不能活下來,不是看 demo。是看你能不能把文件處理時間砍半。Mistral OCR 4 至少把工具箱整理得比較像樣了。接下來就看你手上的資料,值不值得把它放進正式流程。