[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-arc-prize-leaderboard-cost-performance-zh":3,"article-related-arc-prize-leaderboard-cost-performance-zh":28,"series-research-ffa8459f-678e-40b9-a513-dee6b02800bc":86},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":11,"views":25,"created_at":26,"published_at":27,"topic_cluster_id":11},"ffa8459f-678e-40b9-a513-dee6b02800bc","arc-prize-leaderboard-cost-performance-zh","ARC 排行榜把成本攤開來看","\u003Cp>\u003Ca href=\"\u002Fnews\u002Fai-documentary-ceos-altman-hassabis-amodei-zh\">AI\u003C\u002Fa> 圈很愛看分數。可是 \u003Ca href=\"https:\u002F\u002Farcprize.org\u002Fleaderboard\" target=\"_blank\" rel=\"noopener\">ARC Prize leaderboard\u003C\u002Fa> 直接把成本攤開。網站寫得很白，只有跑一次低於 \u003Ca href=\"\u002Fnews\u002Ffyrox-1-0-lands-after-seven-years-in-rust-zh\">10\u003C\u002Fa>,000 美元的系統才會上榜。這種做法很像把獎盃牆換成帳單牆，誰燒錢，誰有效率，一眼就看懂。\u003C\u002Fp>\u003Cp>更有意思的是，\u003Ca href=\"https:\u002F\u002Farcprize.org\u002F\" target=\"_blank\" rel=\"noopener\">ARC Prize\u003C\u002Fa> 不再只考靜態題目。\u003Ca href=\"https:\u002F\u002Farcprize.org\u002Fleaderboard\" target=\"_blank\" rel=\"noopener\">ARC-AGI-1\u003C\u002Fa> 和 \u003Ca href=\"https:\u002F\u002Farcprize.org\u002Fleaderboard\" target=\"_blank\" rel=\"noopener\">ARC-AGI-2\u003C\u002Fa> 比的是固定題型下的推理。\u003Ca href=\"https:\u002F\u002Farcprize.org\u002Fleaderboard\" target=\"_blank\" rel=\"noopener\">ARC-AGI-3\u003C\u002Fa> 則把 agent 丟進互動環境。講白了，問題從「模型會不會答」變成「它能不能快速學會規則」。\u003C\u002Fp>\u003Cp>這差很多。因為真實軟體環境裡，任務常常會變。資料格式會變。API 會改。工具會掛。你不只要答對，還要能適應。這也是 ARC 排行榜比很多 benchmark 更像工程現場的原因。\u003C\u002Fp>\u003Ch2>ARC 排行榜到底在量什麼\u003C\u002Fh2>\u003Cp>ARC 的圖表不是單純排名。它把每個系統的成本和表現放在同一張散點圖上。你可以把它想成，每個點都在回答一個很現實的問題：這個模型每做一題，燒掉多少算力，換回多少分數。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775143855363-h1lx.png\" alt=\"ARC 排行榜把成本攤開來看\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這種量法很直接，也很殘酷。很多 AI demo 看起來很猛，但一旦算進推理時間、重試次數、工具呼叫和 Token 消耗，成本就會炸開。分數高不代表能上線。分數高也不代表能長期跑在伺服器上。\u003C\u002Fp>\u003Cp>ARC Prize 還把不同類型的系統分開看。像 \u003Ca href=\"https:\u002F\u002Fopenai.com\u002Findex\u002Fgpt-4-5\u002F\" target=\"_blank\" rel=\"noopener\">GPT-4.5\u003C\u002Fa> 和 \u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fnews\u002Fclaude-3-7-sonnet\" target=\"_blank\" rel=\"noopener\">Claude 3.7 Sonnet\u003C\u002Fa> 這類 base LLM，通常是單次推理。另一類是 reasoning system，會拉長思考時間。還有 Kaggle 系統，因為它們是在極小預算下拚命擠分數。\u003C\u002Fp>\u003Cp>這樣切開來看，才不會把不同玩法混成一團。說真的，把 50 美元預算的競賽方法，跟 10,000 美元等級的推理系統放一起比，本來就很怪。ARC 至少有努力把規則講清楚。\u003C\u002Fp>\u003Cul>\u003Cli>上榜門檻是單次運行低於 10,000 美元。\u003C\u002Fli>\u003Cli>Kaggle 組別只有 50 美元算力預算。\u003C\u002Fli>\u003Cli>ARC-AGI-3 改成互動式任務。\u003C\u002Fli>\u003Cli>部分結果還是 preview 或 provisional。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>為什麼 ARC-AGI-3 讓人更在意\u003C\u002Fh2>\u003Cp>ARC-AGI-3 最有意思的地方，是它把題目從靜態推理拉進互動。這不再是一次性考試。模型要先觀察，再調整，再繼續試。這種模式比較像 agent，而不是傳統聊天機器人。\u003C\u002Fp>\u003Cp>這個改動很重要。因為很多 LLM 在固定題目上看起來很強，可是一進入真實任務就開始亂猜。它可能要多輪試錯，還要一直呼叫工具。每多一次動作，成本就往上疊。Token 也跟著燒。\u003C\u002Fp>\u003Cp>ARC Prize 把這個代價畫出來，算是很誠實。你可以看到某些系統不是不能解題，而是解題方式太貴。這對 AI 團隊是壓力，也是提醒。真正能部署的系統，不是只會做題，而是能控制成本。\u003C\u002Fp>\u003Cblockquote>“True intelligence isn't just about solving problems, but solving them efficiently with minimal resources.”\u003C\u002Fblockquote>\u003Cp>這句引述來自 ARC Prize。意思很直白。只會靠狂燒算力解題，不代表夠聰明。它可能只是預算比較大。這也是我覺得 ARC 題目比很多 benchmark 更有意思的地方。\u003C\u002Fp>\u003Cp>因為它逼你面對一個老問題。模型分數高，跟產品能不能賣，根本不是同一件事。你在 demo 場上看到的漂亮曲線，常常是伺服器和成本團隊在背後幫你扛。\u003C\u002Fp>\u003Ch2>不同系統類型怎麼比\u003C\u002Fh2>\u003Cp>ARC 的排行榜不是只看誰第一。它更像在看不同策略的取捨。reasoning system 通常會隨著思考時間增加而進步，但 ARC 的說明也提到，這種提升常會慢慢趨平。講白了，就是多想一點有用，但不是無限有用。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775143857580-63r9.png\" alt=\"ARC 排行榜把成本攤開來看\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這點很像現實世界的 AI 服務。你把推理時間拉長，答案有時會更好。可是一旦延遲變高，使用者就開始罵。更別說雲端成本、GPU 排程、API 延遲，全部都會一起上來。\u003C\u002Fp>\u003Cp>base LLM 的價值，則在於它告訴你模型原始能力到哪裡。它沒有長鏈推理的加成，也沒有太多外掛技巧。這種結果很適合拿來看底子。Kaggle 系統則是另一種極端，專門把有限預算榨到乾。\u003C\u002Fp>\u003Cp>如果你是做產品的人，這張圖其實很好懂。高分但貴，適合 demo。中高分但便宜，才像能上線。低分但超便宜，可能是某些場景的實用解。ARC 的好處，就是把這些差異攤平給你看。\u003C\u002Fp>\u003Cul>\u003Cli>reasoning system 會隨思考時間增加而進步。\u003C\u002Fli>\u003Cli>base LLM 反映單次推理的原始能力。\u003C\u002Fli>\u003Cli>Kaggle 系統是固定預算下的極限優化。\u003C\u002Fli>\u003Cli>有些結果只算 preview，不該當成最終答案。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>如果拿現有大廠來看，\u003Ca href=\"https:\u002F\u002Fopenai.com\u002F\" target=\"_blank\" rel=\"noopener\">OpenAI\u003C\u002Fa> 和 \u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002F\" target=\"_blank\" rel=\"noopener\">Anthropic\u003C\u002Fa> 都很愛談 reasoning 能力。這沒錯。但 ARC 逼大家多看一個欄位：成本。沒有成本，能力常常只是幻覺。\u003C\u002Fp>\u003Cp>我覺得這對台灣開發者特別有感。很多團隊現在都在串 API 做 agent。你如果只看成功率，不看每次任務花多少 Token，月底帳單會直接教你做人。\u003C\u002Fp>\u003Ch2>這對 AI agent 開發有什麼意思\u003C\u002Fh2>\u003Cp>ARC-AGI-3 的方向，會直接影響 agent 設計。以前大家常比誰的模型答得準。現在更像在比誰能更快學會任務，還能少走冤枉路。這種能力很接近實際產品需求。\u003C\u002Fp>\u003Cp>例如客服 agent、資料整理 agent、研究助理 agent，都不會只做一次輸出。它們要讀文件、查資料、呼叫工具、修正結果。每一步都會消耗時間和算力。任務一複雜，成本就會跳。\u003C\u002Fp>\u003Cp>所以 ARC 排行榜的價值，不只是展示誰分數高。它也在提醒大家，agent 不能只追求多輪思考。更好的設計，應該是更少重試、更少廢話、更少無效 Token。這才像能在真實伺服器上活下來的系統。\u003C\u002Fp>\u003Cp>這裡可以順手看一下產業脈絡。現在很多團隊都在往 agent framework 靠攏，像是工具調用、記憶管理、工作流編排。可是框架再多，如果成本控制沒做好，最後還是會卡在營運面。技術債會變成雲端帳單。\u003C\u002Fp>\u003Ch2>這股潮流背後的產業壓力\u003C\u002Fh2>\u003Cp>AI 產業這兩年很愛比大模型參數、上下文長度、工具數量。可是真正落地後，大家最先問的常常不是準不準，而是貴不貴。這很現實，也很正常。因為\u003Ca href=\"\u002Fnews\u002Fsolana-developer-platform-enterprise-integration-zh\">企業\u003C\u002Fa>買的是服務，不是論文。\u003C\u002Fp>\u003Cp>ARC 這種榜單會受歡迎，不是因為它比較會炒作。是因為它把成本變成主角。這對模型供應商很麻煩，因為只靠「更大、更強」這套說法，已經不夠了。你還得證明每個 Token 都花得值得。\u003C\u002Fp>\u003Cp>我也覺得這會影響 benchmark 生態。接下來，單看 accuracy 的榜單可能會越來越沒說服力。大家會開始問延遲、成本、失敗率、重試次數，甚至是互動過程中的 sample efficiency。這些才是產品團隊真的在意的指標。\u003C\u002Fp>\u003Cp>如果你是做開發工具、SaaS，或是內部知識庫系統，這種轉變特別重要。因為你不會想把一個 90 分的模型，放進一個每月燒掉幾十萬的 workflow。高分很爽。帳單更真實。\u003C\u002Fp>\u003Ch2>接下來該看什麼\u003C\u002Fh2>\u003Cp>我的判斷很簡單。接下來幾個月，大家會更在意模型的「每分成本」。不是只看誰拿最高分，而是誰能用更少資源拿到接近的結果。這會直接影響 agent、推理服務和雲端部署策略。\u003C\u002Fp>\u003Cp>如果 ARC-AGI-3 持續把互動能力和成本綁在一起，AI 團隊就很難再只靠跑分說故事。下一個值得追的點，不是單一分數，而是分數、延遲、重試、Token 消耗的整體組合。你如果在做產品，現在就該開始記這些數字。\u003C\u002Fp>\u003Cp>講白了，這種榜單不是叫你迷信 ARC。它是在提醒你，AI 的價值不是免費的。下次你看到某個模型分數很漂亮，先問一句：它花了多少錢？如果答案太難看，那分數再高也只是漂亮數字而已。\u003C\u002Fp>","ARC Prize 排行榜把成本和分數放在同一張圖上，ARC-AGI-3 也把任務拉進互動環境。這篇看它怎麼逼 AI 團隊正視算力、Token 和實際可部署性。","arcprize.org","https:\u002F\u002Farcprize.org\u002Fleaderboard",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775143855363-h1lx.png","research","zh","7a6580cb-935a-456c-a22d-45bab79f41c9",[17,18,19,20,21,22,23,24],"ARC Prize","ARC leaderboard","AI benchmark","LLM cost","AI agent","Token成本","推理模型","ARC-AGI-3",4,"2026-04-02T15:30:39.292235+00:00","2026-04-02T15:30:39.121+00:00",{"tags":29,"relatedLang":45,"relatedPosts":49},[30,32,34,36,38,39,41,43],{"name":20,"slug":31},"llm-cost",{"name":24,"slug":33},"arc-agi-3",{"name":22,"slug":35},"token成本",{"name":17,"slug":37},"arc-prize",{"name":23,"slug":23},{"name":21,"slug":40},"ai-agent",{"name":19,"slug":42},"ai-benchmark",{"name":18,"slug":44},"arc-leaderboard",{"id":15,"slug":46,"title":47,"language":48},"arc-prize-leaderboard-cost-performance-en","ARC Prize leaderboard shows cost still matters","en",[50,56,62,68,74,80],{"id":51,"slug":52,"title":53,"cover_image":54,"image_url":54,"created_at":55,"category":13},"4fa896da-9616-425a-92bc-c1d7d5861ff9","streamma-multi-agent-reasoning-latency-zh","StreamMA 讓多代理推理邊想邊傳","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780554786134-1w1d.png","2026-06-04T06:32:32.769423+00:00",{"id":57,"slug":58,"title":59,"cover_image":60,"image_url":60,"created_at":61,"category":13},"f31f51ba-4445-4e43-9bda-31e70f53d42b","audio-language-models-arbitration-reversals-zh","音訊模型不是聽不懂","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780553877373-ux95.png","2026-06-04T06:17:27.890159+00:00",{"id":63,"slug":64,"title":65,"cover_image":66,"image_url":66,"created_at":67,"category":13},"447ac6c9-477b-45c8-bec2-ff94dc4cf5d4","stride-training-data-attribution-sparse-recovery-zh","STRIDE 讓訓練資料歸因快 13 倍","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780552979370-897a.png","2026-06-04T06:02:29.149166+00:00",{"id":69,"slug":70,"title":71,"cover_image":72,"image_url":72,"created_at":73,"category":13},"33c9a55c-a8c0-4367-b742-f4567d1e98e3","mathematicians-warn-ai-could-distort-math-zh","數學界警告 AI 會扭曲證明標準","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780504386035-080l.png","2026-06-03T16:32:29.415063+00:00",{"id":75,"slug":76,"title":77,"cover_image":78,"image_url":78,"created_at":79,"category":13},"5c3cb90f-7efd-426f-8c09-32a303f82be9","humanoid-gpt-zero-shot-motion-tracking-zh","Humanoid-GPT：用 GPT 擴大動作追蹤","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780469319284-znpc.png","2026-06-03T06:47:34.463464+00:00",{"id":81,"slug":82,"title":83,"cover_image":84,"image_url":84,"created_at":85,"category":13},"e3a4b0f7-03b3-43c6-ae51-906b337c5c2f","ipt-vlms-hidden-space-reasoning-zh","IPT 讓 VLM 更會想像隱藏空間","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780468394735-1k40.png","2026-06-03T06:32:46.560029+00:00",[87,92,97,102,107,112,117,122,127,132],{"id":88,"slug":89,"title":90,"created_at":91},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":93,"slug":94,"title":95,"created_at":96},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":98,"slug":99,"title":100,"created_at":101},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":103,"slug":104,"title":105,"created_at":106},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":108,"slug":109,"title":110,"created_at":111},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":113,"slug":114,"title":115,"created_at":116},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":118,"slug":119,"title":120,"created_at":121},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":123,"slug":124,"title":125,"created_at":126},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":128,"slug":129,"title":130,"created_at":131},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":133,"slug":134,"title":135,"created_at":136},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]