返回首頁

標籤

多模態模型

多模態模型把影像、文字、程式碼與語音放進同一套推理流程,適合代理式工作流、視覺理解與人機互動。這裡聚焦模型架構、長上下文、微調策略與部署成本,從 Qwen3.5 視覺分層訓練到 Kimi K2.5、MiMo 這類新模型的實作差異。

8 篇文章

Claude Code 現在能接三個多模態模型
工具應用/6月20日

Claude Code 現在能接三個多模態模型

三個多模態模型可透過 OpenAI 風格設定接入 Claude Code,也能搭配其他客戶端使用。重點在於統一介面、圖片與影片輸入,以及更容易切換模型。

5 個關於 Meta Llama 3 上線的重點
產業動態/6月7日

5 個關於 Meta Llama 3 上線的重點

5 個重點看懂 Meta Llama 3 在美國與歐盟的上線差異,包含模型尺寸、區域限制與開發者可用性。

MiniMax M3:開源三合一模型
模型發布/6月6日

MiniMax M3:開源三合一模型

MiniMax M3 主打 1M context、原生多模態與寫程式能力,搭配 MiniMax Code。這篇整理它和 Claude、GPT 的差異。

Claude Mythos Preview:價格、上下文與定位
模型發布/5月22日

Claude Mythos Preview:價格、上下文與定位

Anthropic 的 Claude Mythos Preview 目前只在外部名單露面,主打多模態、位階高於 Opus,外界最在意的是價格、上下文長度與是否真能落地。

Unsloth 讓 Qwen3.5 可分層微調
工具應用/4月3日

Unsloth 讓 Qwen3.5 可分層微調

Unsloth 新增 Qwen3.5 視覺模型分層微調,能只訓練 vision、language、attention 或 MLP。VRAM 更省,訓練也更快,對多模態團隊很實用。

Kimi K2.5 把視覺、程式碼和 Agent 放一起
模型發布/4月3日

Kimi K2.5 把視覺、程式碼和 Agent 放一起

Moonshot AI 推出 Kimi K2.5,主打 256K context、原生視覺和 Agent Swarm。這篇拆解它對開發者、團隊與自動化流程的實際影響。

小米 MiMo 盯上代理式軟體
產業動態/3月28日

小米 MiMo 盯上代理式軟體

小米推出 MiMo-V2-Pro、Omni、TTS,主打 1T+ 參數與低價 API,直接瞄準代理式 AI 工作流。

小米 MiMo 三模型瞄準代理、機器人與語音
模型發布/3月28日

小米 MiMo 三模型瞄準代理、機器人與語音

小米一次推出三款 MiMo AI 模型,涵蓋代理、多模態與語音。MiMo-V2-Pro 以超過 1 兆參數、100 萬 token 上下文,逼近 Claude Opus 4.6 的表現。