標籤

多模態模型

多模態模型把影像、文字、程式碼與語音放進同一套推理流程，適合代理式工作流、視覺理解與人機互動。這裡聚焦模型架構、長上下文、微調策略與部署成本，從 Qwen3.5 視覺分層訓練到 Kimi K2.5、MiMo 這類新模型的實作差異。

8 篇文章

Claude Code 現在能接三個多模態模型

三個多模態模型可透過 OpenAI 風格設定接入 Claude Code，也能搭配其他客戶端使用。重點在於統一介面、圖片與影片輸入，以及更容易切換模型。

5 個重點看懂 Meta Llama 3 在美國與歐盟的上線差異，包含模型尺寸、區域限制與開發者可用性。

MiniMax M3 主打 1M context、原生多模態與寫程式能力，搭配 MiniMax Code。這篇整理它和 Claude、GPT 的差異。

Anthropic 的 Claude Mythos Preview 目前只在外部名單露面，主打多模態、位階高於 Opus，外界最在意的是價格、上下文長度與是否真能落地。

Unsloth 新增 Qwen3.5 視覺模型分層微調，能只訓練 vision、language、attention 或 MLP。VRAM 更省，訓練也更快，對多模態團隊很實用。

Moonshot AI 推出 Kimi K2.5，主打 256K context、原生視覺和 Agent Swarm。這篇拆解它對開發者、團隊與自動化流程的實際影響。

小米推出 MiMo-V2-Pro、Omni、TTS，主打 1T+ 參數與低價 API，直接瞄準代理式 AI 工作流。

小米一次推出三款 MiMo AI 模型，涵蓋代理、多模態與語音。MiMo-V2-Pro 以超過 1 兆參數、100 萬 token 上下文，逼近 Claude Opus 4.6 的表現。