[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-ibm-100b-vector-database-single-server-zh":3,"article-related-ibm-100b-vector-database-single-server-zh":28,"series-research-6510a804-74fd-4073-9c73-a1b4d3dc491c":85},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":11,"views":25,"created_at":26,"published_at":27,"topic_cluster_id":11},"6510a804-74fd-4073-9c73-a1b4d3dc491c","ibm-100b-vector-database-single-server-zh","IBM 單機塞進 1000 億向量","\u003Cp>IBM 這次丟出的數字很硬。單一伺服器，1000 億向量，平均查詢延遲 694 毫秒，召回率超過 90%。說真的，這不是一般簡報會拿來唬人的那種規格。\u003C\u002Fp>\u003Cp>重點不只在向量數字大。它想做的是把 RAG 的一部分，直接塞進儲存層。講白了，就是少一層中介，少一些伺服器，也少一些整合地獄。\u003C\u002Fp>\u003Cp>這個原型來自 \u003Ca href=\"https:\u002F\u002Fresearch.ibm.com\u002Fblog\u002Fcas-100-billion-vector-storage-ai\" target=\"_blank\" rel=\"noopener\">IBM Research\u003C\u002Fa> 的 co\u003Ca href=\"\u002Fnews\u002Fuk-regulators-assess-anthropic-model-risks-zh\">nt\u003C\u002Fa>ent-aware storage，簡稱 CAS。它把文件切塊、嵌入、索引，盡量往儲存系統裡面放。這種做法，對企業資料量大的場景特別有感。\u003C\u002Fp>\u003Ch2>IBM 到底做了什麼\u003C\u002Fh2>\u003Cp>CAS 的核心概念很直接。資料進到儲存系統後，不是先丟到外部向量資料庫，再走一輪複雜管線。它想在儲存層就把文件轉成向量，讓檢索更靠近資料本體。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776125936277-ct7n.png\" alt=\"IBM 單機塞進 1000 億向量\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>IBM 說，單一文件切成多段後，可能變成數百個向量。企業一旦有數十萬份文件，向量數量就會爆開。這時候還靠傳統 scale-out 架構，就會開始燒錢。\u003C\u002Fp>\u003Cp>這套原型用了分層索引、GPU 加速，還把查詢運算和儲存拆開。硬體部分，IBM 是跟 \u003Ca href=\"https:\u002F\u002Fwww.samsung.com\u002Fsemiconductor\u002F\" target=\"_blank\" rel=\"noopener\">Samsung Semiconductor\u003C\u002Fa> 和 \u003Ca href=\"https:\u002F\u002Fwww.nvidia.com\" target=\"_blank\" rel=\"noopener\">NVIDIA\u003C\u002Fa> 合作，跑在 \u003Ca href=\"https:\u002F\u002Fwww.ibm.com\u002Fproducts\u002Fstorage-scale-system-6000\" target=\"_blank\" rel=\"noopener\">IBM Storage Scale System 6000\u003C\u002Fa> 上。\u003C\u002Fp>\u003Cul>\u003Cli>向量規模：1000 億\u003C\u002Fli>\u003Cli>向量維度：384，full precision float\u003C\u002Fli>\u003Cli>儲存占用：153 TiB\u003C\u002Fli>\u003Cli>平均查詢延遲：694 毫秒\u003C\u002Fli>\u003Cli>召回率：超過 90%\u003C\u002Fli>\u003Cli>建索引硬體：6 張 NVIDIA H200 GPU\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>為什麼 RAG 一直卡在儲存\u003C\u002Fh2>\u003Cp>現在很多企業做 AI，第一個想到的就是 RAG。原因很簡單。你不用把所有內部文件重新訓練進模型。你只要把文件嵌入後存起來，查詢時抓相關片段就好。\u003C\u002Fp>\u003Cp>問題是，資料一大，這套流程就開始變重。索引要時間，重建索引更花時間。等你把資料、向量庫、搜尋層、模型服務全部串好，維運成本也跟著上來。\u003C\u002Fp>\u003Cp>IBM 的說法是，現在很多向量資料庫要靠數十台，甚至數百台伺服器，才撐得住十億級向量。這對雲端預算很不友善。對內部 IT 團隊來說，也很像在養一隻越長越大的怪獸。\u003C\u002Fp>\u003Cp>IBM 想把更多工作往儲存層下放，再用 GPU 做最吃重的部分。它說，如果只用 2-socket I\u003Ca href=\"\u002Fnews\u002Fanthropic-mythos-pr-battle-ai-risk-zh\">nt\u003C\u002Fa>el CPU，建索引大概要 120 天。換成 6 張 NVIDIA H200 GPU，時間降到 4 天。前面還要先花 9 天做載入和分割。\u003C\u002Fp>\u003Cul>\u003Cli>傳統向量資料庫常要橫向擴到數十到數百台\u003C\u002Fli>\u003Cli>IBM 說 CPU 建索引要約 120 天\u003C\u002Fli>\u003Cli>6 張 NVIDIA H200 GPU 可壓到 4 天\u003C\u002Fli>\u003Cli>資料載入與分割還要 9 天\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>IBM 高層想講的故事\u003C\u002Fh2>\u003Cp>IBM 這次不是只在秀硬體數字。它也在講企業價值。\u003Ca href=\"https:\u002F\u002Fwww.ibm.com\" target=\"_blank\" rel=\"noopener\">IBM\u003C\u002Fa> Storage GM Sam Werner 的意思很明白。很多文件早就躺在儲存系統裡，只是企業一直沒把它們吃乾抹淨。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776125931294-l8c0.png\" alt=\"IBM 單機塞進 1000 億向量\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>Sam Werner 說：「Enterprises can \u003Ca href=\"\u002Fnews\u002Fanthropic-claude-mythos-preview-bank-fears-zh\">de\u003C\u002Fa>rive unprecedented insights from all of their documents in storage systems.」這句話很像行銷稿，但意思很實際。資料都在那裡了，為什麼還要多搬一層？\u003C\u002Fp>\u003Cp>IBM Storage CTO Vincent Hsu 則把焦點放在基礎設施。企業資料集變大很快，不能等到最後才想擴充策略。Daniel Waddington 也提到維運問題。系統不只要跑得動，還要能持續更新。\u003C\u002Fp>\u003Cblockquote>“Enterprises can derive unprecedented insights from all of their documents in storage systems,” said Sam Werner, GM IBM Storage.\u003C\u002Fblockquote>\u003Cp>IBM 還放了一句很直白的說法。它說安全性已經內建在向量資料庫裡，現在要做的是在不拉高基礎設施 footprint 的前提下擴大規模。這句話很像賣點，但也很像企業真實痛點。\u003C\u002Fp>\u003Ch2>跟一般做法比，差在哪\u003C\u002Fh2>\u003Cp>現在多數 RAG 架構都很碎。資料進來先做 ingestion，再丟向量資料庫，旁邊還有物件儲存、快取、模型服務。每一層都能出問題。每一層都要維運。\u003C\u002Fp>\u003Cp>IBM 想做的是把這些層壓扁。儲存不再只是放資料。它也要參與檢索。這種設計很像把倉庫直接改造成半個搜尋引擎。\u003C\u002Fp>\u003Cp>從數字看，IBM 這次的 demo 已經不是小打小鬧。1000 億向量、694 毫秒、90% 以上召回率，這組數字至少證明一件事。向量檢索的戰場，已經從「能不能做」變成「怎麼做得划算」。\u003C\u002Fp>\u003Cul>\u003Cli>一般大型向量 DB：十億級向量，常要數十到數百台\u003C\u002Fli>\u003Cli>IBM CAS 原型：單機 1000 億向量\u003C\u002Fli>\u003Cli>常見 CPU 索引：可能拖到數月\u003C\u002Fli>\u003Cli>IBM GPU 索引：4 天完成，前置載入 9 天\u003C\u002Fli>\u003Cli>傳統 RAG：切成多層管線\u003C\u002Fli>\u003Cli>IBM CAS：更多流程放進儲存層\u003C\u002Fli>\u003C\u002Ful>\u003Cp>IBM 和 NVIDIA 也在推 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FcuVS\" target=\"_blank\" rel=\"noopener\">cuVS\u003C\u002Fa> 相關的向量索引工作。它們的目標很明確。1000 億以上向量，索引時間壓到 1 天內，載入時間從 9 天壓到 1 天，搜尋延遲往 50 到 100 毫秒靠近，召回率維持 90%。\u003C\u002Fp>\u003Cp>這組目標很誠實。它沒有說要把一切變魔法。它只是在告訴你，瓶頸在哪裡。現在不是向量檢索能不能用。是它能不能在企業裡面活得久、活得便宜。\u003C\u002Fp>\u003Ch2>這波對產業代表什麼\u003C\u002Fh2>\u003Cp>這件事不只是在比誰能塞更多向量。它也在改寫儲存廠商的角色。以前大家談 AI 基礎設施，主角常是 GPU、模型、API、向量資料庫。儲存廠商常站在後面。\u003C\u002Fp>\u003Cp>現在 IBM 想把自己往前推。它的邏輯是，既然企業資料本來就放在儲存系統，那檢索也可以從那裡開始。這對有大量內部文件的公司，像金融、製造、醫療、法務，都很有吸引力。\u003C\u002Fp>\u003Cp>我覺得這也會逼其他廠商重新想架構。像 \u003Ca href=\"https:\u002F\u002Fwww.pinecone.io\" target=\"_blank\" rel=\"noopener\">Pinecone\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fweaviate.io\" target=\"_blank\" rel=\"noopener\">Weaviate\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fmilvus.io\" target=\"_blank\" rel=\"noopener\">Milvus\u003C\u002Fa> 這類向量資料庫，強項還是在搜尋與索引。IBM 走的是另一條路，直接把儲存層拉進來打。\u003C\u002Fp>\u003Cp>這裡的競爭點很清楚。不是誰的 ANN 演算法名字比較炫。是誰能把整體成本壓下來，還能維持可維運性。\u003C\u002Fp>\u003Cp>如果你看企業採購，這件事更現實。很多團隊不是買不起 GPU，而是養不起一整套分散式檢索堆疊。少一層服務，就少一份故障點。少一份故障點，就少一次半夜被叫醒。\u003C\u002Fp>\u003Ch2>接下來該看什麼\u003C\u002Fh2>\u003Cp>IBM 這次的 demo，最有意思的地方不是 1000 億這個數字本身。是它把「向量檢索」從獨立服務，往儲存系統裡面推了一步。這件事如果做順，企業 RAG 的架構會簡單很多。\u003C\u002Fp>\u003Cp>但我也不會把它說得太神。694 毫秒平均延遲，對某些即時互動場景還是偏慢。它比較像大規模企業檢索的工程解，而不是聊天機器人秒回的理想答案。\u003C\u002Fp>\u003Cp>接下來最該盯的，是 IBM 能不能把索引時間從 4 天再壓下去，還有搜尋延遲能不能往 100 毫秒內靠攏。如果做得到，這套 CAS 才真的有機會進到正式部署清單。\u003C\u002Fp>\u003Cp>我的判斷很直接。下一波企業 RAG 競爭，不會只看誰的 LLM 比較會講。會看誰能把資料、索引、儲存、GPU 串得更省錢。你如果正在規劃內部知識庫，現在就該問一句：你要再養一個向量叢集，還是讓儲存系統多做一點事？\u003C\u002Fp>","IBM 宣稱 CAS 原型在單一伺服器上索引 1000 億向量，平均延遲 694 毫秒、召回率超過 90%。這篇拆解它怎麼做、跟一般向量資料庫差在哪、以及對企業 RAG 架構的影響。","research.ibm.com","https:\u002F\u002Fresearch.ibm.com\u002Fblog\u002Fcas-100-billion-vector-storage-ai",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776125936277-ct7n.png","research","zh","10619d9e-17e5-426e-8139-5ad963627565",[17,18,19,20,21,22,23,24],"IBM","向量資料庫","RAG","CAS","AI儲存","NVIDIA H200","企業AI","向量檢索",3,"2026-04-14T00:18:35.333469+00:00","2026-04-14T00:18:35.157+00:00",{"tags":29,"relatedLang":44,"relatedPosts":48},[30,32,34,36,37,39,41,43],{"name":22,"slug":31},"nvidia-h200",{"name":19,"slug":33},"rag",{"name":20,"slug":35},"cas",{"name":24,"slug":24},{"name":23,"slug":38},"企業ai",{"name":17,"slug":40},"ibm",{"name":21,"slug":42},"ai儲存",{"name":18,"slug":18},{"id":15,"slug":45,"title":46,"language":47},"ibm-100b-vector-database-single-server-en","IBM hits 100B vectors on one server","en",[49,55,61,67,73,79],{"id":50,"slug":51,"title":52,"cover_image":53,"image_url":53,"created_at":54,"category":13},"33c9a55c-a8c0-4367-b742-f4567d1e98e3","mathematicians-warn-ai-could-distort-math-zh","數學界警告 AI 會扭曲證明標準","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780504386035-080l.png","2026-06-03T16:32:29.415063+00:00",{"id":56,"slug":57,"title":58,"cover_image":59,"image_url":59,"created_at":60,"category":13},"5c3cb90f-7efd-426f-8c09-32a303f82be9","humanoid-gpt-zero-shot-motion-tracking-zh","Humanoid-GPT：用 GPT 擴大動作追蹤","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780469319284-znpc.png","2026-06-03T06:47:34.463464+00:00",{"id":62,"slug":63,"title":64,"cover_image":65,"image_url":65,"created_at":66,"category":13},"e3a4b0f7-03b3-43c6-ae51-906b337c5c2f","ipt-vlms-hidden-space-reasoning-zh","IPT 讓 VLM 更會想像隱藏空間","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780468394735-1k40.png","2026-06-03T06:32:46.560029+00:00",{"id":68,"slug":69,"title":70,"cover_image":71,"image_url":71,"created_at":72,"category":13},"5fca9fe5-af66-47ce-85f0-0ffe1bee30b9","neuron-selectivity-changes-with-scale-zh","神經元選擇性會隨規模改變","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780467514422-7oss.png","2026-06-03T06:17:44.126547+00:00",{"id":74,"slug":75,"title":76,"cover_image":77,"image_url":77,"created_at":78,"category":13},"9f9c2a61-d058-4c62-bb88-106e683657f0","nasa-landsat-wild-disturbances-rising-zh","NASA Landsat：野火與風暴變多","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780448581102-owp0.png","2026-06-03T01:02:37.513233+00:00",{"id":80,"slug":81,"title":82,"cover_image":83,"image_url":83,"created_at":84,"category":13},"3479bdee-21fb-4fda-9572-9394caba01b0","adacodec-predictive-visual-code-video-mllms-zh","AdaCodec 用預測碼壓縮影片 token","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780381988591-z2sp.png","2026-06-02T06:32:28.249023+00:00",[86,91,96,101,106,111,116,121,126,131],{"id":87,"slug":88,"title":89,"created_at":90},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":92,"slug":93,"title":94,"created_at":95},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":97,"slug":98,"title":99,"created_at":100},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":102,"slug":103,"title":104,"created_at":105},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":107,"slug":108,"title":109,"created_at":110},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":112,"slug":113,"title":114,"created_at":115},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":117,"slug":118,"title":119,"created_at":120},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":122,"slug":123,"title":124,"created_at":125},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":127,"slug":128,"title":129,"created_at":130},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":132,"slug":133,"title":134,"created_at":135},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]