Mistral OCR 4 把文件變結構化資料

OraCore Editors

返回首頁

[RSCH] 2026年6月26日6 分鐘閱讀OraCore 編輯部

Mistral OCR 4 把文件變結構化資料

Mistral OCR 4 把 OCR 從純文字抽取，改成帶框、標籤與信心分數的文件資料。它支援 170 種語言，API 價格從每 1,000 頁 4 美元起。

分享 LinkedIn

Mistral OCR 4 把掃描文件轉成結構化資料，還附上框線、區塊標籤和信心分數。

Mistral AI 推出 Mistral OCR 4。這次不是單純辨識文字而已。它把頁面結構一起吐出來，對文件 AI 很實用。

官方給的數字也很直接。它支援 170 種語言，涵蓋 10 個語言群組。API 從每 1,000 頁 4 美元起，Batch API 則是 2 美元。若走 Mistral Studio 的 Document AI，價格是每 1,000 頁 5 美元。

指標	數值	意義
語言支援	170 種	適合跨國文件流程
API 價格	每 1,000 頁 4 美元	適合高流量 OCR 工作
Batch API 價格	每 1,000 頁 2 美元	適合非同步匯入
Document AI 價格	每 1,000 頁 5 美元	適合不想自己串流程的團隊
OlmOCRBench 分數	85.20	官方主打的 benchmark 成績

OCR 4 不只看字，還看版面

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

這版最重要的改變，是它回傳的不只是純文字。每個區塊都有 bounding box、block type，還有 inline confidence score。講白了，就是讓系統知道文字在哪裡，也知道它有多可靠。

這件事對文件 AI 很重要。你在做搜尋、RAG、發票解析、合約抽取時，版面資訊常常比字本身更有用。純文字會把欄位、表格、標題、註記全打散，後面再補回來很痛苦。

Mistral 這次的路線也很明確。它不是把 OCR 當成大模型的副產品，而是做成一個小而專的模型。對要處理大量文件的團隊來說，這種設計通常比較務實。

Bounding box 可直接標出文字位置。
Block type 有助分辨表格、標題、簽名。
Confidence score 可接人工複核流程。
單一容器部署，適合內網或私有雲。

它也支援常見企業格式。像 PDF、DOC、PPT、OpenDocument 都能吃。這點看起來普通，但實務上很重要。真實世界的文件來源通常很雜，不會只給你乾淨掃描檔。

為什麼 Mistral 要強調結構

Mistral 很清楚，它賣的不是單一準確率。它想賣的是文件入口層。也就是把 OCR 變成搜尋、RAG、Agent 工作流的前置資料管線。

這個方向合理。只要模型能辨識區塊類型和信心分數，後面就能做引用定位、來源追蹤、人工審核。對企業來說，這比單純吐一坨文字更好用。

官方也丟了幾個 benchmark 數字。它說在 OlmOCRBench 拿到 85.20，OmniDocBench 則是 93.07。另有獨立標註者偏好測試，平均勝率 72%。

“We benchmarked OCR 4 against the leading agentic document parsers across a chart and figure dense financial QA dataset and reached equivalent accuracy at roughly 8x lower cost and 17x lower latency.” — Aidan Donohue, AI Engineer at Rogo

這段引述很有意思。因為它講的不是模型情懷，而是成本和延遲。文件系統能不能進 production，通常就卡在這兩個數字。快但貴，財務會嫌。便宜但不準，法務會先翻白眼。

benchmark 好看，但要看限制

Mistral 也花不少篇幅提醒 benchmark 會騙人。這點我覺得算誠實。OCR 本來就很髒，評分常常會因為 ground truth 錯誤、數學式寫法不同、欄位順序不同而失真。

像多欄排版、公式分段、頁首頁尾，這些都很容易讓分數失真。模型看起來差，不代表它真的差。反過來也一樣。只看 leaderboard，常常會選到不適合自己資料的東西。

所以實務上，OCR 4 應該拿你的文件測。不要只看官方分數。你如果手上是合約、研究論文、財報、掃描表單，結果會差很多。

人類偏好測試涵蓋 600+ 文件。
測試文件橫跨 12+ 種語言。
官方說 Crawl Multilingual 評測拿到 0.98。
它在 8 個語言群組都壓過競品。

多語言支援是這版很實際的賣點。Mistral 說它能處理 English、Western Europe、Eastern Europe、Middle Eastern、Chinese、East Asian、Southeast Asian，還有特殊語言群組。像 Hindi、Japanese、Georgian、Bengali、Armenian、Hebrew、Greek、Gujarati、Tamil、Malayalam、Kannada、Telugu 都在範圍內。

價格和部署，才是團隊真正會看的地方

現在有三種用法。第一種是直接 API，每 1,000 頁 4 美元。第二種是 Batch API，每 1,000 頁 2 美元。第三種是 Mistral Studio 的 Document AI，每 1,000 頁 5 美元。

這個價差很有意思。它其實在對三種人說話。開發者要控制力，Ops 要吞吐量，產品團隊要快速上線。Mistral 把這三條路都留著，算是很會賣。

自架也很重要。官方說可以單容器部署。這對金融、政府、醫療、法律場景很關鍵。這些地方的 OCR 往往不是抽字問題，而是資料治理問題。

如果拿來比，很多 OCR 工具不是太簡單，就是太重。OCR 4 想站在中間。它想保留結構化輸出，也想讓自架和批次匯入都能用。這種定位比純 OCR 工具更像文件基礎設施。

官方也明講限制。它不適合醫療診斷、法律建議、高風險金融決策、安全關鍵系統，也不處理音訊和影片。這樣講很正常。至少它沒亂吹。

對台灣團隊來說，重點是管線，不是模型名

如果你在做搜尋、RAG、發票抽取、文件歸檔，OCR 4 會很有吸引力。因為它把 OCR、版面分析、信心分數收在一起。少掉很多 glue code，也少掉很多手工補洞。

我會建議先拿混合語言文件測。像中英混排、掃描 PDF、表格、章節標題、欄位很多的表單，都丟進去。不要先看準確率，先看人工修正時間。

這種產品最後能不能活下來，不是看 demo。是看你能不能把文件處理時間砍半。Mistral OCR 4 至少把工具箱整理得比較像樣了。接下來就看你手上的資料，值不值得把它放進正式流程。

// 相關文章

Mistral OCR 4 把文件變結構化資料

OCR 4 不只看字，還看版面

訂閱 AI 趨勢週報

為什麼 Mistral 要強調結構

benchmark 好看，但要看限制

價格和部署，才是團隊真正會看的地方

對台灣團隊來說，重點是管線，不是模型名

ArBG 改用自回歸做分子採樣

RiVER 讓 LLM 不靠標準答案也能學

DanceOPD：把修圖技能蒸餾進同一模型

Microsoft 砸錢研究團隊協作 AI

3 篇 AI 論文：程式、音樂、罕病診斷

新 NLP 論文盯上代理記憶與工具使用