5 個關鍵部件看懂 LLMs
5 個關鍵部件帶你看懂 LLMs 如何從資料、token、注意力到對齊,進而判斷訓練與部署該看什麼。

這篇用 5 個部件拆解大型語言模型,幫你看懂它怎麼學、怎麼猜下一個 token、以及該怎麼選模型。
讀完這 5 項,你就能判斷一個 LLM 的能力從哪裡來,也能分辨它是靠規模、結構,還是後訓練調整在發揮作用。
| 項目 | 做什麼 | 關鍵細節 |
|---|---|---|
| 訓練資料 | 提供語言樣本 | 來自書籍、文章、網站與程式碼 |
| Tokenization | 把文字切成可運算單位 | 可用詞、子詞或字元 |
| Transformer attention | 抓住 token 之間的關係 | 靠 query、key、value 向量 |
| Parameters | 儲存學到的行為 | 可達數十億到數兆 |
| Fine-tuning / RLHF | 把通用模型調成特定用途 | 提升對齊、可用性與一致性 |
1. 大量訓練資料先把語感養出來
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
LLM 不是先懂語言再上線,而是先看過大量文本,從中學出語法、風格、常見搭配與知識分布。資料來源通常包含書籍、文章、網站與程式碼,範圍越廣,模型越能在不同語境下維持表現。

在這一步,資料品質比單純的數量更重要。去重、清理錯誤、過濾不想要的內容,都是避免模型學歪的基本功。
- 來源:書籍、文章、網站、程式碼
- 處理:清理、去重、過濾
- 目的:讓模型學到可泛化的語言模式
2. Tokenization 讓文字變成模型看得懂的單位
模型不直接讀「句子」,而是先把文字切成 token。token 可以是詞、子詞,甚至字元,這讓系統能處理生字、罕見詞與變形字,不必依賴完整詞彙表。
這也是 LLM 最核心的運作方式之一:它不是像人一樣理解整段文字,而是根據 token 序列去預測下一個最可能出現的 token。
- 常見切法:詞、子詞、字元
- 好處:能處理新詞與罕見詞
- 結果:文字變成可計算的輸入
3. Transformer attention 決定哪些詞最重要
LLM 多半建立在 transformer 架構上,而 self-attention 是它能處理長句與上下文關係的關鍵。這個機制會衡量序列中不同 token 的重要性,即使兩個詞隔得很遠,也能建立關聯。

實作上,模型會把每個 token 映射成 query、key、value 三種向量,再計算權重分配資訊。這讓模型能在回答問題時,抓住真正相關的線索,而不是只看最近的字。
token → embedding → query/key/value → attention weights → output4. Parameters 把學到的模式存進模型
訓練時,模型會不斷調整內部權重,也就是 parameters。這些參數決定模型怎麼處理輸入、怎麼產生輸出;規模大的模型可能有數十億甚至數兆參數,因此在能力與成本之間會出現明顯取捨。
參數越多,模型通常越能吸收語法、寫作風格、推理套路與領域模式,但也更吃算力與記憶體。若部署環境有限,小型語言模型會是更實際的選擇。
- Parameters:訓練後形成的內部權重
- 規模:可到數十億或數兆
- 小模型:更適合低資源設備與緊縮預算
5. Fine-tuning 和 RLHF 把通用模型調成可用工具
預訓練完成後,模型通常還會進一步 fine-tuning,讓它更適合客服、摘要、寫程式或特定領域問答。這一步不是重學語言,而是把已經會說話的模型,調整成更符合任務需求的版本。
常見方法是 RLHF,也就是 reinforcement learning from human feedback。人類會比較不同輸出,模型再學會偏好更有幫助、更安全、也更一致的回答。
- Fine-tuning:把通用模型改成特定用途
- RLHF:用人類偏好改善輸出
- 目標:提高對齊、可用性與一致性
哪種適合你
如果你只想抓住整體脈絡,記住一句話就夠:LLM 是靠下一個 token 預測運作,先用大量資料學語言,再靠 attention、parameters 與後訓練方法把能力磨出來。
如果你在看部署成本,先看 parameters 和模型大小;如果你在看輸出品質,先看 fine-tuning 與 RLHF;如果你想理解原理,先從 tokenization 和 self-attention 下手。