標籤
多模態模型
多模態模型把影像、文字、程式碼與語音放進同一套推理流程,適合代理式工作流、視覺理解與人機互動。這裡聚焦模型架構、長上下文、微調策略與部署成本,從 Qwen3.5 視覺分層訓練到 Kimi K2.5、MiMo 這類新模型的實作差異。
8 篇文章

工具應用/6月20日
Claude Code 現在能接三個多模態模型
三個多模態模型可透過 OpenAI 風格設定接入 Claude Code,也能搭配其他客戶端使用。重點在於統一介面、圖片與影片輸入,以及更容易切換模型。

產業動態/6月7日
5 個關於 Meta Llama 3 上線的重點
5 個重點看懂 Meta Llama 3 在美國與歐盟的上線差異,包含模型尺寸、區域限制與開發者可用性。

模型發布/6月6日
MiniMax M3:開源三合一模型
MiniMax M3 主打 1M context、原生多模態與寫程式能力,搭配 MiniMax Code。這篇整理它和 Claude、GPT 的差異。

模型發布/5月22日
Claude Mythos Preview:價格、上下文與定位
Anthropic 的 Claude Mythos Preview 目前只在外部名單露面,主打多模態、位階高於 Opus,外界最在意的是價格、上下文長度與是否真能落地。

工具應用/4月3日
Unsloth 讓 Qwen3.5 可分層微調
Unsloth 新增 Qwen3.5 視覺模型分層微調,能只訓練 vision、language、attention 或 MLP。VRAM 更省,訓練也更快,對多模態團隊很實用。

模型發布/4月3日
Kimi K2.5 把視覺、程式碼和 Agent 放一起
Moonshot AI 推出 Kimi K2.5,主打 256K context、原生視覺和 Agent Swarm。這篇拆解它對開發者、團隊與自動化流程的實際影響。

產業動態/3月28日
小米 MiMo 盯上代理式軟體
小米推出 MiMo-V2-Pro、Omni、TTS,主打 1T+ 參數與低價 API,直接瞄準代理式 AI 工作流。

模型發布/3月28日
小米 MiMo 三模型瞄準代理、機器人與語音
小米一次推出三款 MiMo AI 模型,涵蓋代理、多模態與語音。MiMo-V2-Pro 以超過 1 兆參數、100 萬 token 上下文,逼近 Claude Opus 4.6 的表現。