[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tag-multimodal-ai":3},{"tag":4,"articles":11,"peer_article_count":123},{"id":5,"name":6,"slug":7,"article_count":8,"description_zh":9,"description_en":10},"42f2ca65-5d81-4e99-a378-5c58f0d3b518","multimodal AI","multimodal-ai",4,"多模態 AI 把文字、圖像、音訊與影片放進同一套模型與工作流，重點不只在生成內容，也在理解、編輯與代理式任務。從長上下文、視覺編修到語音與影片處理，這類模型正改變產品與開發方式。","Multimodal AI combines text, images, audio, and video in one model or workflow, so systems can understand, generate, and edit across formats. It matters for long-context assistants, image editing, speech interfaces, video analysis, and agentic software.",[12,21,29,36,43,51,58,66,73,80,87,94,101,108,115],{"id":13,"slug":14,"title":15,"summary":16,"category":17,"image_url":18,"cover_image":18,"language":19,"created_at":20},"d023a8fa-d96f-40f7-bc2c-31e00f459c29","xiaomi-mimo-v2-omni-perception-action-en","Xiaomi MiMo-V2-Omni turns perception into action","5 takeaways from Xiaomi MiMo-V2-Omni, a multimodal agent model that pairs visual, audio, video, and browser action skills.","industry","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782419571606-lhdb.png","en","2026-06-25T20:32:23.968289+00:00",{"id":22,"slug":23,"title":24,"summary":25,"category":26,"image_url":27,"cover_image":27,"language":19,"created_at":28},"17a7dc8b-25e4-4993-b0dd-b23733390007","gemma-4-256k-context-open-models-en","Gemma 4 brings 256K context to open models","Google’s Gemma 4 adds text, image, and audio input, plus up to 256K context and five model sizes for local or server use.","model-release","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781686085345-8dgk.png","2026-06-17T08:47:34.623499+00:00",{"id":30,"slug":31,"title":32,"summary":33,"category":26,"image_url":34,"cover_image":34,"language":19,"created_at":35},"22137409-904c-49c4-bebb-1b4683438c6f","minimax-m3-1m-token-coding-power-en","MiniMax M3 adds 1M-token coding power","MiniMax M3 brings coding and agent features, a 1 million-token context window, and multimodal input to the company’s flagship model.","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781295476573-19e8.png","2026-06-12T20:17:28.486889+00:00",{"id":37,"slug":38,"title":39,"summary":40,"category":26,"image_url":41,"cover_image":41,"language":19,"created_at":42},"3a291fde-d57b-49c2-b0c5-f795b0853c2b","google-gemini-35-pro-june-2m-token-launch-en","Google Gemini 3.5 Pro Targets June With 2M Tokens","Google plans June availability for Gemini 3.5 Pro, with a 2 million token window, Deep Think reasoning, and first access on paid plans.","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781204588141-2jr2.png","2026-06-11T19:02:36.803188+00:00",{"id":44,"slug":45,"title":46,"summary":47,"category":48,"image_url":49,"cover_image":49,"language":19,"created_at":50},"10019558-ce95-4658-9145-2a94f9230589","scoredetect-ai-content-moderation-rollout-en","ScoreDetect details AI moderation rollout, 99% matching","ScoreDetect outlines a multimodal moderation stack, 99% matching, blockchain proof, and a 90-day rollout for enforcement teams.","tools","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781078589270-zxqg.png","2026-06-10T08:02:28.560656+00:00",{"id":52,"slug":53,"title":54,"summary":55,"category":26,"image_url":56,"cover_image":56,"language":19,"created_at":57},"58aa41ca-2c5f-44c6-ab07-2002473e95b1","gemini-1-5-pro-002-flash-002-2-0-flash-update-en","Gemini 1.5 Pro-002, Flash-002 and 2.0 Flash update Google AI","Google released Gemini-1.5-Pro-002 and Flash-002 on Sept. 24, 2024, then previewed Gemini 2.0 Flash with live multimodal and agent tools.","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780999383257-jccn.png","2026-06-09T10:02:28.362637+00:00",{"id":59,"slug":60,"title":61,"summary":62,"category":63,"image_url":64,"cover_image":64,"language":19,"created_at":65},"1d84a671-4772-43ea-af56-3d447893a94c","memdreamer-long-video-understanding-memory-retrieval-en","MemDreamer tackles long-video overload","MemDreamer splits perception from reasoning to make hours-long video understanding fit in a tiny context window.","research","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780902190707-ajbq.png","2026-06-08T07:02:32.833899+00:00",{"id":67,"slug":68,"title":69,"summary":70,"category":26,"image_url":71,"cover_image":71,"language":19,"created_at":72},"d9b93425-c218-44af-b4d4-87d997f90c39","minimax-m3-triple-capability-open-model-en","MiniMax M3: 中国首个三合一开源模型","MiniMax M3 combines coding, 1M context, and native multimodal support, while MiniMax Code adds an agentic coding layer.","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780756397789-wy3i.png","2026-06-06T14:32:35.789517+00:00",{"id":74,"slug":75,"title":76,"summary":77,"category":26,"image_url":78,"cover_image":78,"language":19,"created_at":79},"758b2a2e-2785-432e-b7c2-4947a7a078f3","why-minimax-m3-matters-long-context-model-en","Why MiniMax M3 matters more than another long-context model","MiniMax M3 is a real step forward because it pairs long context with multimodal and agentic control.","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780755477727-j0go.png","2026-06-06T14:17:21.058476+00:00",{"id":81,"slug":82,"title":83,"summary":84,"category":26,"image_url":85,"cover_image":85,"language":19,"created_at":86},"160cf218-8ea5-44d3-b250-5fc8f8b25b73","what-we-know-about-gpt-56-release-date-en","What We Know About GPT-5.6's Release Date","OpenAI has not announced GPT-5.6, but hiring, infrastructure work, and model rumors point to a late-2024 or early-2025 window.","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780574580198-szkr.png","2026-06-04T12:02:35.698162+00:00",{"id":88,"slug":89,"title":90,"summary":91,"category":17,"image_url":92,"cover_image":92,"language":19,"created_at":93},"c2eab199-b162-460e-9207-9e2e959c71d5","why-geminigen-ai-is-just-another-wrapper-en","Why Geminigen AI Is Just Another Generative AI Wrapper","Geminigen AI is presented as a broad generative AI concept, but it adds no clear technical edge or product identity.","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780412569117-7x7j.png","2026-06-02T15:02:22.529167+00:00",{"id":95,"slug":96,"title":97,"summary":98,"category":17,"image_url":99,"cover_image":99,"language":19,"created_at":100},"cf1863f5-624d-4b5f-bc32-d469c2149866","why-ai-infrastructure-is-now-the-real-moat-en","Why AI infrastructure is now the real moat","AI leadership now depends more on compute, distribution, and product limits than on model demos.","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778875858866-4ikl.png","2026-05-15T20:10:38.090619+00:00",{"id":102,"slug":103,"title":104,"summary":105,"category":26,"image_url":106,"cover_image":106,"language":19,"created_at":107},"b5821216-6735-4554-bc10-6816c7e245cc","kimi-k26-256k-context-api-en","Kimi K2.6 Brings 256K Context to API Users","Kimi K2.6 adds 256K context, multimodal input, and stronger coding for developers using the Kimi API Platform.","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1777903860599-o5fz.png","2026-05-04T14:10:39.672693+00:00",{"id":109,"slug":110,"title":111,"summary":112,"category":26,"image_url":113,"cover_image":113,"language":19,"created_at":114},"64364272-88c7-4d56-89df-450955970c27","openai-chatgpt-images-2-0-launch-en","OpenAI’s ChatGPT Images 2.0 lands with sharper edits","OpenAI quietly shipped ChatGPT Images 2.0, and early tests show stronger edits, cleaner text, and faster image workflows for creators.","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1777032789624-5nrg.png","2026-04-24T12:12:43.141006+00:00",{"id":116,"slug":117,"title":118,"summary":119,"category":17,"image_url":120,"cover_image":121,"language":19,"created_at":122},"b8ea2224-db14-4d1d-a9df-60d6f9f499c7","xiaomi-mimo-ai-agentic-software-push-en","Xiaomi’s MiMo AI Push Targets Agentic Software","Xiaomi’s MiMo-V2-Pro, Omni, and TTS models pair 1T+ parameters with low pricing, aiming squarely at agentic AI workloads.","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1774618930188-17in.png","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1774498042556-7ne9.png","2026-03-28T13:10:35.375168+00:00",6]