標籤
multimodal AI
多模態 AI 把文字、圖像、音訊與影片放進同一套模型與工作流,重點不只在生成內容,也在理解、編輯與代理式任務。從長上下文、視覺編修到語音與影片處理,這類模型正改變產品與開發方式。
6 篇文章

模型發布/6月17日
Gemma 4 把 256K 上下文帶進開放模型
Google DeepMind 的 Gemma 4 加入文字、圖片、音訊輸入,最高 256K context,還提供五種開放權重規格,適合本機與伺服器部署。

技術研究/6月15日
ClinHallu 追蹤醫療 MLLM 幻覺來源
ClinHallu 把醫療多模態模型的幻覺拆成看圖、記知識、做整合三段來診斷,讓開發者能定位錯誤來源。

產業動態/6月6日
為什麼 Gemini Drops 比模型名稱更重要
Gemini Drops 才是 Google 真正的產品路線圖,不只是發表更新。

模型發布/5月4日
Kimi K2.6 把 256K 上下文帶進 API
Kimi K2.6 為 API 開發者帶來 256K 上下文、圖像與影片輸入,還強化長程式碼任務的穩定度。

模型發布/4月4日
Gemma 4 登上 Google Cloud
Gemma 4 進入 Google Cloud,支援 256K context、vision、audio 與 Apache 2.0 授權,還能跑在 Vertex AI、Cloud Run、GKE 與 TPU 上。

模型發布/4月2日
MiMo V2 Pro、Omni、Flash 怎麼選
MiMo 2026 三款模型分工很清楚:Flash 主打開源與 coding,Pro 提供 1M context,Omni 則處理圖像、音訊與影片。這篇直接比 benchmark、價格與適用場景。