Tether 推 Bitnet 邊緣微調
Tether 於 2026 年 5 月 29 日發布 Bitnet LoRA 微調框架,主打在手機、筆電與桌機上跑 13B 模型,並把訓練與推理往邊緣裝置移動。

Tether 於 2026 年 5 月 29 日發布 Bitnet LoRA 框架,主打可在消費級裝置上微調 13B 模型。
Tether 這次把焦點放在邊緣裝置,不再只依賴雲端 GPU。官方說法是,手機、筆電、桌機都能參與訓練與推理,讓 AI 開發更靠近使用者手上的硬體。
| 項目 | 數值 |
|---|---|
| 發布日期 | 2026 年 5 月 29 日 |
| 模型規模 | 130 億參數 |
| 每週生成式 AI 使用者 | 約 7 億 |
| 大型公司 AI 擴張率 | 近 50% |
| 小型公司 AI 擴張率 | 29% |
發生了什麼
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
Tether 公布的框架,核心是把 Microsoft Bitnet 延伸到 LoRA 微調。它支援異質消費級 GPU,包含行動 GPU,也把執行後端擴到 Vulkan 與 Metal。

這代表 Bitnet 不再只侷限於原本的 Bitnet.cpp 推理路徑。Tether 也加入 dynamic tiling,專門處理行動硬體常見的 driver buffer 限制,避免裝置端微調卡在記憶體配置上。
官方同時把這套能力包進 QVAC SDK。Tether 表示,開發者可以把它用在 QVAC Workbench,並把工作分配到不同裝置上,形成比較完整的 edge-first 工具鏈。
- 支援 Vulkan 與 Metal GPU
- 可在手機、PC、筆電上跑
- 把推理與 LoRA 微調放到同一套框架
- 以開源方式提供給開發者
文章提到的目標裝置很具體,包括 Samsung S25 與 iPhone 16 等級的手機,以及一般個人電腦。這意味著 Tether 想證明,130 億參數模型不一定只能在資料中心裡調整。
這套做法也不是憑空出現。Tether 說 dynamic tiling 先前已用在 QVAC Fabric LLM fine-tuning framework,現在只是把同一思路搬到 Bitnet 上,讓更多硬體型態能接上來。
為什麼重要
對開發者來說,最大變化是成本結構。若微調能在本機完成,小團隊就不必為每次實驗都租大型 GPU 叢集,原型開發、客製化與測試都會更快。

這對零售、SMB 與消費型應用特別有用。這些場景常常需要依照地端資料或個人習慣調整模型,但又不想把敏感資料送上雲端,裝置端微調就成了更直接的選項。
產業面上,這也碰上 AI 擴張速度的落差。文章引用 McKinsey 2025 State of AI 調查,指出營收超過 50 億美元的公司,近 50% 已進入 AI 擴張階段;營收低於 1 億美元的公司,比例只有 29%。Tether 的賭注是,把算力放回使用者裝置,能縮小這道差距。
它還把 Holepunch、Pear 與 delegated inference 串進同一個敘事裡。重點不是單一模型,而是讓裝置之間直接協作,形成不依賴雲端的分散式應用模式。
真正的考題也很直白:消費級 GPU、行動驅動與開源工具,能不能撐住可重複、可上線的微調流程?如果答案是可以,邊緣 AI 的門檻會明顯下降;如果不行,這仍會先停留在示範層。
對產業來說,這篇消息的重點不是 Bitnet 本身,而是 Tether 正在把「模型訓練」從雲端專案改寫成裝置功能。