[TOOLS] 13 分鐘閱讀OraCore 編輯部

Ollama 讓本地 LLM 變可抄配置

拆 Ollama 的本地 LLM 工作流:先裝、先跑、先測,再把 API 接進你現有工具。

分享 LinkedIn
Ollama 讓本地 LLM 變可抄配置

Ollama 讓你把本地 LLM 跑起來、變成 API,還能很快複製成可用配置。

我用本地模型 runtime 有一陣子了,老實說,大多數都像是寫給喜歡折磨開發者的人。參數一堆、文件半殘、還常丟一句「自己裝 CUDA」就想打發你,好像每台機器都該先被 GPU 神明加持過。直到我碰到 Ollama,第一次覺得這東西不是在考驗我的耐心,而是真的想讓我在午餐前把流程跑完。

但我也一直卡在同一個煩躁點:大家講 Ollama 不是講得像魔法,就是講得像玩具。兩種都不對。它就是一個本地 runtime,工作很明確。你把這個工作想清楚,整套東西就不神祕了。你不是在「試一個 AI app」,你是在裝模型跑器、接本地 HTTP endpoint、挑幾個值得佔硬碟的模型。這個框架才有用,其他很多都是噪音。

把我拉去重看這件事的來源,是 Pasquale Pillitteri 的這篇 Ollama 2026 入門指南。他切的角度很務實:本地推理、硬體需求、第一批指令、值得先試的模型。文章也直接指到官方 Ollama GitHub repo,這個 repo 我自己也常拿來看版本節奏和專案狀態。

Ollama 不是聊天機器人,它是底層管線

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

Ollama is a runtime, meaning a program that runs on your computer and in turn runs open source LLMs.

白話翻譯就是:Ollama 不是模型本體,也不是單純的聊天介面,它是把模型下載下來、載入、跑起來,然後對外丟出本地服務的那層東西。你可以把它想成模型世界的水電管線。

Ollama 讓本地 LLM 變可抄配置

這個比喻我很買單。Docker 讓「把同一個東西穩定跑起來」變正常;Ollama 也在做類似的事,只是對象換成 LLM。你不用自己處理 Python 環境、模型檔、奇怪腳本,直接像這樣跑:ollama run llama3.1,就能進到可用狀態。

我之前幫同事在乾淨環境測本地模型,沒 runtime 的時候,我們花最多時間不是評估模型,而是在吵依賴。裝了 Ollama 之後,流程突然變得很無聊。無聊是好事,代表我可以把這套東西丟給別的工程師,不會半夜收到 Slack 問我 tokenizer 為什麼炸掉。

實操上,我會把 Ollama 當基礎設施,不是玩具。你的用途可以是聊天,也可以是 code review、文件問答、內部工具的私有 API。重點不是「有沒有 AI」,而是「這個服務能不能被重複使用」。

  • 你要在終端機、腳本、App 裡直接問模型,用它。
  • 你不想每次都依賴第三方 API,用它。
  • 你需要一個本地 HTTP endpoint 給別的工具打,用它。

真正值錢的不是新鮮感,是隱私、成本跟不用求 API

Pillitteri 講本地推理的理由,我覺得比很多產品簡報都正常。重點不是信仰,重點是控制權。模型跑在你機器上,prompt 跟文件就不用先離開你的邊界。這件事對合約、內部文件、source code、甚至任何會讓法務皺眉的資料,都很實際。

成本也是同樣道理。雲端 API 沒問題,直到它開始有使用量。那個帳單很快就會長出個性。改成本地模型之後,成本結構就變了:你先付硬體和電費,之後每多問一次,邊際成本接近零。你在做 prototype、內部工具、或者整天跑的自動化,這差很多。

可用性更不用說。我看過雲端服務把正常 workflow 限流,然後好像還覺得自己很貼心。本地模型不會突然改規則,也不會今天一個樣明天一個樣。只要你的機器開著,它就在。這種「沒什麼戲劇性」的穩定,在出差、在客戶現場、在爛 Wi-Fi 的地方特別有感。

實操寫法很簡單:當你的資料敏感度、預算、或 uptime 比單次模型品質更重要時,就優先用本地 LLM。你真的需要最強雲端模型時,就去雲端;但如果你要的是私密、便宜、還能離線,本地方案常常比較像正解。

  • 隱私優先:法務、醫療、內部 code、機密研究。
  • 預算敏感:prototype、demo、agent、批次分類。
  • 離線場景:出差、外勤、受限網路、安全環境。

硬體建議最愛唬人,我只看模型大小

Pillitteri 有把兩個很蠢的極端切掉:一種是「隨便一台筆電都能跑」,另一種是「你沒 RTX 4090 就別碰」。真相比較無聊:模型大小幾乎決定一切。不是每個場景都要怪獸工作站,你也不該還沒搞清楚任務就先把錢砸下去。

Ollama 讓本地 LLM 變可抄配置

1 到 4B 這種小模型,8GB RAM 加正常 CPU 通常就夠了,適合基本聊天、摘要、翻譯、分類。7 到 14B 是很多實務工作最甜的位置,16GB RAM 或 unified memory 很常是甜蜜點。再大就要看你有沒有足夠記憶體和 GPU VRAM,不然只會讓整台機器喘到像在跑馬拉松。

我看過太多人先買硬體再找用途,最後拿 70B 模型跑在桌面都快卡死的機器上,然後說自己在「做未來規劃」。不是,這只是很貴的衝動。先用最小能解題的模型,真的不夠再升級。

實操上,我會先問:這個任務到底要什麼?如果是筆記助理或 code snippet 幫手,先試 8B。若你要更強的推理或更穩的上下文處理,再往 14B 走。只有當品質差距真的影響工作,才去碰更大的模型。

  • 1 到 4B:輕量筆電、mini PC、基本助手。
  • 7 到 14B:多數開發者最實用的日常區間。
  • 27B 以上:工作站等級,不是隨手玩。

安裝會這麼順,就是因為它不裝腔作勢

Ollama 能擴散得快,安裝體驗真的很重要。macOS 直接去 ollama.com/download 裝 app,背景服務就起來了。Windows 也一樣乾脆,從 Windows 下載頁 直接裝。Linux 則是官方 install script 從 terminal 跑掉。

這看起來很平凡,但其實不平凡。很多 AI 工具還活得像實驗室 demo 跑進 production,Ollama 比較像真的給開發者用的軟體。它安裝、啟動、開本地 port、然後就不吵你了。當然還是有設定工作,但那是正常設定,不是儀式性獻祭。

我特別喜歡它預設的本地端點 http://localhost:11434。這代表我不用翻一堆設定檔找 endpoint,其他工具也能直接對接。到這裡,Ollama 就不只是「能跟模型聊天」,而是可以被當成積木。

實操寫法:先裝官方版本,確認服務起來,再碰 CLI。不要一裝就開始亂改。先讓一個模型跑起來,確認 endpoint 可用,再往外擴。

# macOS via Homebrew
brew install ollama
brew services start ollama
ollama --version

# Linux install
curl -fsSL https://ollama.com/install.sh | sh

# Verify the service
curl http://localhost:11434/api/tags

前五個指令就夠你做真工作了

Pillitteri 的指南最強的地方,是它沒有假裝你需要一份超長指令大全。你真的不需要。前五個指令就能覆蓋大多數開發者會碰到的事:安裝、執行、列出、刪除、查看資訊。

我最先會用的是 ollama run。那一刻抽象才變成真的。你不再是在讀本地 LLM 的介紹,而是真的在跟模型說話。接著 ollama list 會告訴你裝了什麼,ollama rm 可以清掉那些只試過一次就忘了的模型,不然硬碟很快就變成模型墳場。

我現在的習慣是很現實的:試一個模型,就拿我真的會用的任務去打它。能用就留,不能用就刪。不要收藏模型,模型不是紀念品。留少數幾個你真的信得過的,工作效率反而高。

實操上,我會做一個很小的 evaluation loop:一個 code task、一個 doc task、一個 structured output task。每個模型都跑同一組。打不贏 baseline,就刪掉。

# Start a chat session
ollama run llama3.1

# See installed models
ollama list

# Remove a model
ollama rm llama3.1

# Show model information
ollama show llama3.1

模型清單別亂海選,先做小型實測

原文有提到 2026 值得先試的七個模型,我覺得這個思路是對的。短名單永遠比「Top 100 模型清單」有用。多數開發者不需要模型博物館,他們需要一個能開始工作的起點。

實際上,第一批模型應該看兩件事:合不合你的硬體,對不對你的任務。如果你要通用聊天跟 coding 幫手,先挑 8B 或 14B 的強模型。如果你要結構化輸出,就挑 JSON 指令服從性高的。若你常處理多語內容,就找英文以外也穩的模型。

我以前也浪費過時間追「最強模型」,後來發現更常見的答案其實是「夠快、夠穩、又塞得進記憶體的那個」。這句很煩,但是真的。稍微小一點、回應快一點的模型,很多時候比大模型更實用。

實操寫法:保留一組短 benchmark。我的通常只有三題:一題 code、一題摘要、一題結構化輸出。能過這三題的,才有資格進我的常用清單。

  • 通用助手:強 8B 或 14B。
  • 結構化輸出:測 JSON 指令能力。
  • 長文件處理:看它在 prompt 壓力下穩不穩。

本地 API 才是 Ollama 變成基礎設施的地方

我覺得很多人第一次裝 Ollama 時,最容易漏掉的就是這段。聊天介面很方便,但 API 才是重點。Ollama 會對外提供本地 HTTP 服務,而且很多 OpenAI 相容工具都能直接接。這代表你可以把 LangChainLlamaIndex、或 Vercel AI SDK 這類工具,改接到本地 endpoint,而不是雲端供應商。

這件事很值錢,因為 integration 成本直接下降。我不用重寫 app 來測本地推理,只要改 base URL、調一下 model 名稱,繼續往下走。這種相容性平常不起眼,但它會救專案不去變成 side quest。

自己做私有文件助理 prototype 時就碰過。雲端版能跑,但資料處理的故事太黏。換成 Ollama 之後,我保留原本 app 的形狀,只把 inference 拉回本地。討論重點也從「能不能做」變成「哪個模型答案品質最好」。這才是對的問法。

實操寫法:把 Ollama 當成本地 OpenAI-compatible backend。你的 app 先對 API 寫一次,之後要換模型就換模型。只要你原本就會用 OpenAI-style client,其實已經很接近了。

curl http://localhost:11434/api/chat \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.1",
    "messages": [
      {"role": "user", "content": "Write a one-line summary of Ollama."}
    ]
  }'

生態系比單機工具重要,因為沒人想綁死在死路上

Ollama 本身好用,但真正讓它留在工作流裡的是生態系。原文有提到 integrations,我也很在意這件事。當本地模型能接編輯器、自動化工具、agent、app framework,它就不再只是新鮮感。

我不想把工作流程綁在一個只能在單一視窗裡用的工具上。我希望模型出現在工作原本就發生的地方:terminal、IDE、CI script、內部 app、automation platform。每次都要離開熟悉的 stack 才能問模型,採用率一定掉。

另一個好處是控制力。當你有一個穩定的本地 runtime,你就能安心做實驗:改 prompt、換模型、加 adapter,其他層不需要一起動。這比追著雲端模型變更跑,然後每次都要猜它今天又改了什麼行為,舒服太多。

實操上,我會先決定模型要待在哪裡,再決定模型本身。如果要進 IDE,就先測 editor integration;如果要進 automation,就先測 API;如果是團隊共用,就把安裝步驟跟預設模型寫成一份文件,不要讓每個人自己猜。

  • Terminal 工作流:快速提問、腳本、批次工作。
  • App 工作流:本地助理、文件工具、內部儀表板。
  • Automation 工作流:agents、RAG pipeline、排程任務。

可抄的模板

# Ollama local LLM starter template
# 直接貼到你的 README、筆記或 onboarding 文件。

## 目標
在本機跑一個可用的 LLM,拿固定測試題驗證,再透過本地 API 給其他工具使用。

## 安裝

### macOS
brew install ollama
brew services start ollama

### Linux
curl -fsSL https://ollama.com/install.sh | sh

### Windows
# 下載官方安裝程式:
# https://ollama.com/download/windows

## 驗證
ollama --version
curl http://localhost:11434/api/tags

## 第一個先試的模型
ollama run llama3.1

## 我的測試題
1. 把這份文件濃縮成 5 行摘要。
2. 把這段文字轉成合法 JSON。
3. 用 code review 的口氣解釋這段程式。

## 留或刪規則
- 如果回應夠快,而且三題都穩,就留著。
- 如果太慢、不穩、或太吃記憶體,就刪掉。

## 常用指令
ollama list
ollama show llama3.1
ollama rm llama3.1

## API 範例
curl http://localhost:11434/api/chat \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.1",
    "messages": [
      {"role": "user", "content": "Give me one practical use case for Ollama."}
    ]
  }'

## 整合筆記
- 把支援 OpenAI-compatible 的工具指到 http://localhost:11434
- 固定測一題 code、一題摘要、一題結構化輸出
- 只保留真的值得放在硬碟上的模型

如果你只想記最短版本,那就是:先裝 Ollama,跑一個模型,用你真的會碰的任務測它,再把本地 API 接進你現有工具。這就是整個流程。

這篇拆解主要參考 pasqualepillitteri.it/en/news/3703/what-is-ollama-how-to-get-started-2026-guide,我沿用了它的實務角度,但本文的重點整理、語氣、案例和可直接複製的模板,都是我重新整理過的。