標籤

multimodal AI

多模態 AI 把文字、圖像、音訊與影片放進同一套模型與工作流，重點不只在生成內容，也在理解、編輯與代理式任務。從長上下文、視覺編修到語音與影片處理，這類模型正改變產品與開發方式。

6 篇文章

Gemma 4 把 256K 上下文帶進開放模型

Google DeepMind 的 Gemma 4 加入文字、圖片、音訊輸入，最高 256K context，還提供五種開放權重規格，適合本機與伺服器部署。

ClinHallu 把醫療多模態模型的幻覺拆成看圖、記知識、做整合三段來診斷，讓開發者能定位錯誤來源。

Gemini Drops 才是 Google 真正的產品路線圖，不只是發表更新。

Kimi K2.6 為 API 開發者帶來 256K 上下文、圖像與影片輸入，還強化長程式碼任務的穩定度。

Gemma 4 進入 Google Cloud，支援 256K context、vision、audio 與 Apache 2.0 授權，還能跑在 Vertex AI、Cloud Run、GKE 與 TPU 上。

MiMo 2026 三款模型分工很清楚：Flash 主打開源與 coding，Pro 提供 1M context，Omni 則處理圖像、音訊與影片。這篇直接比 benchmark、價格與適用場景。