[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-openai-plan-automated-ai-researcher-zh":3,"article-related-openai-plan-automated-ai-researcher-zh":26,"series-ai-agent-7379b422-576e-45df-ad5a-d57a0d9dd467":79},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":11,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":11,"views":24,"created_at":25,"published_at":25,"topic_cluster_id":11},"7379b422-576e-45df-ad5a-d57a0d9dd467","openai-plan-automated-ai-researcher-zh","OpenAI 想做自動化 AI 研究員","\u003Cp>OpenAI 想做一個\u003Ca href=\"https:\u002F\u002Fopenai.com\" target=\"_blank\" rel=\"noopener\">AI researcher\u003C\u002Fa>。第一步是 9 月前做出自主研究實習生。終點則是 2028 年的多代理系統。這時間表很敢開。因為 \u003Ca href=\"https:\u002F\u002Fopenai.com\u002Findex\u002Fgpt-5\u002F\" target=\"_blank\" rel=\"noopener\">GPT-5\u003C\u002Fa> 在科學任務上，還是會冒出不少錯。\u003C\u002Fp>\u003Cp>講白了，OpenAI 現在押的是一件事。讓軟體自己盯著問題跑幾小時，甚至幾天。人類不用每一步都盯死。這種工具如果做成，對數學、物理、生物、化學都很有用。做不成，就只是另一個很會聊天的 LLM。\u003C\u002Fp>\u003Ch2>OpenAI 這次押的是研究代理人\u003C\u002Fh2>\u003Cp>OpenAI 首席科學家 \u003Ca href=\"https:\u002F\u002Fopenai.com\u002Findex\u002Fjakub-pachocki\u002F\" target=\"_blank\" rel=\"noopener\">Jakub Pachocki\u003C\u002Fa> 接受 \u003Ca href=\"https:\u002F\u002Fwww.technologyreview.com\u002F2026\u002F03\u002F20\u002F1134438\u002Fopenai-is-throwing-everything-into-building-a-fully-automated-researcher\u002F\" target=\"_blank\" rel=\"noopener\">MIT Technology Review\u003C\u002Fa> 訪問時，講得很直接。公司把這件事當成長線目標。它想把推理模型、寫程式代理、可解釋性研究，串成一套系統。\u003C\u002Fp>\u003Cp>這個方向不難懂。研究不是單次問答。研究是拆問題、跑實驗、整理中間結果。你要的是一個能自己回頭修正的系統。不是那種答一句就結束的 chatbot。OpenAI 看到的，就是這個落差。\u003C\u002Fp>\u003Cp>他們手上其實已經有一個雛形。那就是 \u003Ca href=\"https:\u002F\u002Fopenai.com\u002Fcodex\u002F\" target=\"_blank\" rel=\"noopener\">Codex\u003C\u002Fa>。Pachocki 直接把它當成研究員系統的早期版本。這說法很合理。因為會寫 code、會跑測試、會追蹤步驟的 agent，確實比較像研究助理。\u003C\u002Fp>\u003Cul>\u003Cli>目標一：9 月前做出自主研究實習生\u003C\u002Fli>\u003Cli>目標二：2028 年做出多代理研究系統\u003C\u002Fli>\u003Cli>研究範圍含數學、物理、生物、化學\u003C\u002Fli>\u003Cli>OpenAI 內部也把 Codex 當日常工具\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>為什麼 OpenAI 覺得自己做得到\u003C\u002Fh2>\u003Cp>Pachocki 的邏輯，其實很工程派。第一，模型的推理能力變強了。第二，模型可以撐更久。第三，OpenAI 在訓練更硬的任務，逼模型學會拆解工作。這三件事湊在一起，就會讓人開始相信，長時間自治不是幻想。\u003C\u002Fp>\u003Cp>他還拿 \u003Ca href=\"https:\u002F\u002Fopenai.com\u002Findex\u002Fgpt-4\u002F\" target=\"_blank\" rel=\"noopener\">GPT-4\u003C\u002Fa> 的進步當例子。從 GPT-3 到 GPT-4，能力確實跨了一大段。這代表一件事。只要模型夠強，連續工作能力就有機會跟著上去。至少在紙上，這套推論說得通。\u003C\u002Fp>\u003Cblockquote>“I think we are getting close to a point where we’ll have models capable of working indefinitely in a coherent way just like people do,” Pachocki said in the interview with MIT Technology Review.\u003C\u002Fblockquote>\u003Cp>這句話很關鍵。它等於在說，chatbot 和研究員的距離，主要是規模與訓練問題。不是天花板問題。很多研究者不買單，但 OpenAI 顯然是先假設可以做到，再回頭補工程。\u003C\u002Fp>\u003Cp>他們也挑了比較好驗證的任務。像數學競賽、程式挑戰。這些題目有明確答案。模型做對了，就很容易看出來。這比開放式科學研究更好管理。因為後者常常沒有標準解，還一堆模糊地帶。\u003C\u002Fp>\u003Ch2>數據很猛，但錯誤也很真實\u003C\u002Fh2>\u003Cp>這裡就要踩煞車了。\u003Ca href=\"https:\u002F\u002Fallenai.org\" target=\"_blank\" rel=\"noopener\">Allen Institute for AI\u003C\u002Fa> 的研究科學家 Doug Downey 說過，他們去年夏天測了幾個頂級 LLM 的科學任務。結果是，GPT-5 表現最好，但錯誤還是很多。這句話很重要。因為研究工作不是單點答題，而是一串步驟。\u003C\u002Fp>\u003Cp>只要中間一環出錯，整個結果就會歪掉。這和一般聊天完全不同。你叫模型寫一段 code，它可能看起來很順。你叫它連續做十步研究，它每一步都可能累積一點偏差。最後不是小失誤，是整包報廢。\u003C\u002Fp>\u003Cp>OpenAI 也不是沒看到這件事。它現在把 \u003Ca href=\"https:\u002F\u002Fopenai.com\u002Findex\u002Fgpt-5\u002F\" target=\"_blank\" rel=\"noopener\">GPT-5\u003C\u002Fa> 接到 Codex 裡。甚至在訪談前兩週，還發了 GPT-5.4。這代表公司真的把模型迭代，當成研究代理的燃料。只是燃料夠不夠，還是另一回事。\u003C\u002Fp>\u003Cul>\u003Cli>GPT-5 在科學任務上拿到最好成績\u003C\u002Fli>\u003Cli>但 Downey 團隊仍看到大量錯誤\u003C\u002Fli>\u003Cli>OpenAI 內部已把 Codex 納入日常流程\u003C\u002Fli>\u003Cli>研究代理最怕的是錯誤一路累積\u003C\u002Fli>\u003C\u002Ful>\u003Cp>我覺得這裡最實際的例子，是 Pachocki 自己的工作方式。他說自己還是喜歡用 \u003Ca href=\"https:\u002F\u002Fwww.vim.org\" target=\"_blank\" rel=\"noopener\">Vim\u003C\u002Fa> 手打 code。可是他現在會讓模型跑週末實驗。這種差異很有感。不是炫技，是省時間。研究者最懂這種差別。\u003C\u002Fp>\u003Cp>OpenAI 也不是唯一玩家。\u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fclaude-code\" target=\"_blank\" rel=\"noopener\">Claude Code\u003C\u002Fa> 已經把 agent 寫程式這條路做得很明顯。Google DeepMind 也一直在推自己的 agent 研究系統。差別在於，OpenAI 這次把整家公司押在同一個目標上，還直接寫了日期。日期很殘酷。也很誠實。\u003C\u002Fp>\u003Ch2>真正的難題，是失誤會一路疊上去\u003C\u002Fh2>\u003Cp>如果你把研究工作交給 agent，最大問題不是會不會答題。最大問題是，它會不會在第 3 步、第 7 步、第 12 步都默默犯錯。每一個小錯，單看都不大。串起來就很麻煩。這也是為什麼自動化研究，比一般自動化 coding 難很多。\u003C\u002Fp>\u003Cp>Pachocki 也沒有迴避安全問題。他提到，OpenAI 一直在討論風險。像是模型誤判、駭入、錯讀指令。更麻煩的是，如果系統能自己跑完整研究流程，它也可能幫忙產生惡意的 cyber 想法，甚至碰到生物安全問題。\u003C\u002Fp>\u003Cp>OpenAI 現在的解法之一，是 \u003Ca href=\"https:\u002F\u002Fopenai.com\u002Findex\u002Fchain-of-thought-monitoring\u002F\" target=\"_blank\" rel=\"noopener\">chain-of-thought monitoring\u003C\u002Fa>。簡單說，就是看模型的草稿推理，再用其他模型去盯。這招有用，但不是萬靈丹。因為真要高自治，光看草稿還不夠。你還得知道它到底有沒有走偏。\u003C\u002Fp>\u003Cp>這裡可以很直接地說。自治越高，人工審查越難補。sandbox 有用。監控有用。人類複核也有用。可是一旦系統真的很會做事，驚喜和驚嚇就會一起來。這不是悲觀，是工程常識。\u003C\u002Fp>\u003Ch2>放到產業脈絡看，這件事很合理\u003C\u002Fh2>\u003Cp>如果把時間拉長，你會發現這條路其實很順。先是聊天模型。再來是寫程式助手。接著是能自己跑工具的 agent。下一步自然就是研究代理。OpenAI 不是突然發瘋，它只是把這條路講得更白。\u003C\u002Fp>\u003Cp>對開發者來說，這也很像過去 10 年的工具演進。先有 IDE。再有自動補全。再有雲端 CI。現在則是把一部分探索工作交給模型。你可以不喜歡，但方向很清楚。誰先把流程做穩，誰就先拿到生產力。\u003C\u002Fp>\u003Cp>不過我也不會把這件事講得太神。研究不是只有算力。還有資料品質、實驗設計、錯誤歸因、可重現性。這些東西都很髒。LLM 很會講話，不代表它很會做研究。這中間差一大截。\u003C\u002Fp>\u003Cp>所以 OpenAI 的 9 月目標，比較像測試線。不是終點。它會告訴大家，現有模型到底能不能撐住長流程。如果連自主研究實習生都做不穩，2028 的多代理研究員就只是口號。如果做得出來，那就代表 agent 真的開始碰到實務邊界了。\u003C\u002Fp>\u003Ch2>接下來，先看它能不能少犯錯\u003C\u002Fh2>\u003Cp>我自己的判斷很簡單。這套系統第一版，應該會在窄範圍內有用。像是跑實驗、整理文獻、寫小型分析腳本。可是一碰到模糊題目，它就可能開始亂飄。研究最怕的，就是看起來很像對，實際上全錯。\u003C\u002Fp>\u003Cp>如果 OpenAI 真的在 9 月前端出雛形，重點不是它多會聊天。重點是它能不能在 10 步、20 步的流程裡，把錯誤率壓下來。這才是研究代理的生死線。不是 demo 有多帥，是結果能不能站得住。\u003C\u002Fp>\u003Cp>所以我會先盯兩件事。第一，錯誤率有沒有下降。第二，人工介入要多少次。只要這兩個數字沒改善，研究員這個稱號就還太早。你會想問，OpenAI 會不會真的做成？我的答案是：先看它能不能少翻車，再談研究員。\u003C\u002Fp>","OpenAI 想在 9 月前做出自主研究實習生，2028 年再推多代理 AI 研究員，但 GPT-5 在科學任務上仍會出錯，落差很現實。","www.technologyreview.com","https:\u002F\u002Fwww.technologyreview.com\u002F2026\u002F03\u002F20\u002F1134438\u002Fopenai-is-throwing-everything-into-building-a-fully-automated-researcher\u002F",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1774597771736-974v.png","ai-agent","zh","3b0bf479-e4ae-4703-9666-721a7e0cdb91",[17,18,19,20,21,22,23],"OpenAI","AI researcher","GPT-5","Codex","多代理系統","agentic AI","人工智慧研究",5,"2026-03-28T03:17:42.090548+00:00",{"tags":27,"relatedLang":38,"relatedPosts":42},[28,30,31,34,36],{"name":17,"slug":29},"openai",{"name":21,"slug":21},{"name":32,"slug":33},"研究整理","-",{"name":20,"slug":35},"codex",{"name":22,"slug":37},"agentic-ai",{"id":15,"slug":39,"title":40,"language":41},"openai-plan-automated-ai-researcher-en","OpenAI’s plan for an automated AI researcher","en",[43,49,55,61,67,73],{"id":44,"slug":45,"title":46,"cover_image":47,"image_url":47,"created_at":48,"category":13},"cde225a8-eb8e-4724-a089-77f36af0e8a6","mcps-new-primitives-make-agent-middleware-obsolete-zh","MCP 的新原語，正在淘汰自製 agent middleware","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782748974384-f5w9.png","2026-06-29T16:02:24.789168+00:00",{"id":50,"slug":51,"title":52,"cover_image":53,"image_url":53,"created_at":54,"category":13},"6e37d84c-aa27-4d4d-bbf1-81c47dc4522d","mcp-servers-ai-workflows-explained-zh","MCP Server 讓 AI 工具接上工作流","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782747180723-q3gs.png","2026-06-29T15:32:33.536175+00:00",{"id":56,"slug":57,"title":58,"cover_image":59,"image_url":59,"created_at":60,"category":13},"a5333ae2-bfd1-434a-92dd-575e824538c3","openmontage-open-source-ai-video-production-zh","OpenMontage 證明 AI 影片製作該由開源接管","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782685072512-v02f.png","2026-06-28T22:17:22.846394+00:00",{"id":62,"slug":63,"title":64,"cover_image":65,"image_url":65,"created_at":66,"category":13},"caea04da-9e30-4eb8-bb08-2ac3afc4f09e","gemini-35-flash-computer-use-safeguards-zh","Gemini 3.5 Flash 讓你寫電腦操作腳本","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782681504454-c1ly.png","2026-06-28T21:17:56.883563+00:00",{"id":68,"slug":69,"title":70,"cover_image":71,"image_url":71,"created_at":72,"category":13},"362a448e-b40e-437c-9529-94b0fd6a7689","design-md-bridge-taste-to-ui-scaffolds-zh","DESIGN.md 是把品味變成 UI 骨架的缺失橋樑","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782586072806-w93e.png","2026-06-27T18:47:23.886521+00:00",{"id":74,"slug":75,"title":76,"cover_image":77,"image_url":77,"created_at":78,"category":13},"4a77707d-c370-4584-bf40-e71c0414720e","openclaw-agent-control-layer-matters-zh","OpenClaw 證明：代理系統的勝負在控制層，不在模型","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782561770712-4ch7.png","2026-06-27T12:02:20.114404+00:00",[80,85,90,95,100,105,110,111,116,121],{"id":81,"slug":82,"title":83,"created_at":84},"4ae1e197-1d3d-4233-8733-eafe9cb6438b","claude-now-uses-your-pc-to-finish-tasks-zh","Claude 開始幫你操作電腦","2026-03-26T07:20:48.457387+00:00",{"id":86,"slug":87,"title":88,"created_at":89},"5bede67f-e21c-413d-9ab8-54a3c3d26227","googles-2026-ai-agent-report-decoded-zh","Google 2026 AI Agent 報告解讀","2026-03-26T11:15:22.651956+00:00",{"id":91,"slug":92,"title":93,"created_at":94},"2987d097-563f-46c7-b76f-b558d8ef7c2b","kimi-k25-review-stronger-still-not-legend-zh","Kimi K2.5 評測：更強，但還不是神作","2026-03-27T07:15:55.277513+00:00",{"id":96,"slug":97,"title":98,"created_at":99},"95c9053b-e3f4-4cb5-aace-5c54f4c9e044","claude-code-controls-mac-desktop-zh","Claude Code 也能操控 Mac 了","2026-03-28T03:01:58.58121+00:00",{"id":101,"slug":102,"title":103,"created_at":104},"dc58e153-e3a8-4c06-9b96-1aa64eabbf5f","cloudflare-100x-faster-ai-agent-sandbox-zh","Cloudflare 的 AI 沙箱跑超快","2026-03-28T03:09:44.142236+00:00",{"id":106,"slug":107,"title":108,"created_at":109},"1c8afc56-253f-47a2-979f-1065ff072f2a","openai-backs-isara-agent-swarm-bet-zh","OpenAI 挺 Isara 的 agent swarm …","2026-03-28T03:15:27.513155+00:00",{"id":4,"slug":5,"title":6,"created_at":25},{"id":112,"slug":113,"title":114,"created_at":115},"48c9889e-86df-450b-a356-e4a4b7c83c5b","harness-engineering-ai-agent-reliability-2026-zh","駕馭工程：從「馬具」到「作業系統」，AI Agent 可靠性的終極密碼","2026-03-31T06:42:53.556721+00:00",{"id":117,"slug":118,"title":119,"created_at":120},"96d8e8c8-1edd-475d-9145-b1e7a1b02b65","mcp-explained-from-prompts-to-production-zh","MCP 怎麼把提示詞變工作流","2026-04-01T09:24:39.321274+00:00",{"id":122,"slug":123,"title":124,"created_at":125},"f2ca7720-b471-4ce5-9336-2a9ac2a876fd","amazon-bedrock-agents-multi-agent-workflows-zh","Amazon Bedrock Agents 進入多代理工作流","2026-04-01T09:30:29.945429+00:00"]