OpenAI 自研 Jalapeño，先砍推理成本

[IND] 2026年6月27日4 分鐘閱讀OraCore 編輯部

OpenAI 首款自研晶片 Jalapeño 主攻推理，早期測試顯示有望提升每瓦效能並壓低即時 AI 工作負載成本。

OpenAI 的首款自研晶片 Jalapeño 主要用來讓推理更快，也更省電更省錢。

看完這 5 個重點，你可以判斷 OpenAI 是在補哪一段成本缺口、Broadcom 在這條供應鏈裡扮演什麼角色，以及這顆晶片會不會動到 Nvidia 的生意。

1. Jalapeño：先打推理，不碰全能算力

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

Jalapeño 是 OpenAI 第一顆自研晶片，重點不是通吃所有 AI 工作，而是專門處理推理，也就是模型訓練完成後，回應使用者提示、產生程式碼或執行代理動作的那一步。

這種切法很務實，因為推理是產品端最常發生的成本。OpenAI 目前對外說法是，早期測試已經看到比現有主流方案更好的每瓦效能，代表單位工作消耗的電力有下降空間。

Broadcom 是這顆晶片背後的設計與製造夥伴，這讓 OpenAI 不只是買硬體，而是開始參與硬體定義。雙方合作先前已在 10 月對外宣布，這次則是成果首次浮出檯面。

對 OpenAI 來說，這種合作的價值在於可控性。當晶片是圍繞自家模型行為設計，而不是拿通用 GPU 去適配模型時，效能、延遲與成本都更容易被一起優化。

推理和預訓練的差別很大。預訓練像是把模型「教會」，需要大量算力與記憶體頻寬；推理則是模型「上線回答問題」，更接近真實產品流量，也更容易長期累積成本。

OpenAI 特別提到這顆晶片是為了即時程式碼模型降低營運成本，這暗示它想先解最常見、最持續、最吃效能的場景，而不是先挑最昂貴的訓練大戰。

推理 = 已完成訓練的模型開始回答問題
預訓練 = 用資料把模型教出來
即時程式碼 = 高頻、低延遲的工作負載

OpenAI 的訊號不只是在做晶片，而是在做整套基礎設施。它提到的範圍包含晶片架構、核心函式、記憶體系統、網路、排程、部署系統，甚至產品體驗。

這種全棧做法的好處是，模型、軟體與硬體可以一起調。當每一層都知道對方在做什麼時，速度、穩定性與成本都比較有機會一起改善，而不是各自最佳化卻互相拖累。

OpenAI 長期被視為高度依賴 Nvidia GPU，而 Jalapeño 的出現，就是在降低這種依賴。它不太可能全面取代 Nvidia，特別是在預訓練這種重度算力場景，但它有機會先吃掉日常推理流量。

真正重要的是商業效果。只要推理成本下降一點點，像 Codex 或各種代理工具這類持續運作的產品，毛利改善就可能很明顯，因為使用量會隨著產品成熟快速放大。

如果你最在意 AI 產品的成本結構，Jalapeño 是最值得看的部分，因為它直接對準推理這個最常見的支出點。如果你關心晶片供應鏈與客製化硬體，Broadcom 的角色更關鍵，因為它代表 OpenAI 已經從買家走向共同設計者。

如果你在追 AI 晶片市場的變化，這篇最重要的訊號是：競爭不再只看誰能訓練最大模型，也開始看誰能把模型跑得更便宜、更穩、而且更省電。

// 相關文章