[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-lifescibench-tests-biotech-models-zh":3,"article-related-lifescibench-tests-biotech-models-zh":30,"series-research-8531d5f9-60f1-4a4b-94a3-323b82990f06":74},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"8531d5f9-60f1-4a4b-94a3-323b82990f06","lifescibench-tests-biotech-models-zh","LifeSciBench 讓模型先過科研關","\u003Cp data-speakable=\"summary\">LifeSciBench 把生命科學模型評估拉回真實科研工作，重點是推理、知識整合和實驗設計。\u003C\u002Fp>\u003Cp>我盯模型評測這件事很久了。一般 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 跑得漂亮，大家就開始拍手，像是模型已經懂研究了。但我每次把它丟回真正的生命科學場景，就會冒出一堆毛病：論文看得像懂，其實抓不到重點；可以講機制，卻不會比對方法；回答很順，落地到實驗室就整個歪掉。這種落差我真的看膩了。你說你要做 research AI，結果連一個像樣的實驗設計都扛不住，那不叫研究助理，那叫會講話的幻覺\u003Ca href=\"\u002Fnews\u002Fcoordex-humanoid-loco-manipulation-priors-zh\">機器\u003C\u002Fa>。\u003C\u002Fp>\u003Cp>這次把我拉進來的是一篇中文整理，\u003Ca href=\"https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F2050933474085885689\">《海外AI觀察日報｜2026-06-18》\u003C\u002Fa>，裡面整理了 \u003Ca href=\"\u002Ftag\u002Fopenai\">OpenAI\u003C\u002Fa> 的 LifeSciBench。那篇沒有公開 star 數或觀看數，我就不亂掰。真正有意思的不是熱度，而是它把問題講白了：生命科學模型不能只會答題，得能碰科研工作本體。\u003C\u002Fp>\u003Ch2>一般評測最愛騙人，科研工作最不吃這套\u003C\u002Fh2>\u003Cblockquote>OpenAI 發布 LifeSciBench，用於評估模型在生命科學任務中的能力邊界。該基準強調真實科研工作中的推理、知識整合和實驗設計相關能力，而不是只測通用問答。\u003C\u002Fblockquote>\u003Cp>翻譯一下就是：一個模型就算很會聊天，也不代表它能幫你做研究。生命科學場景要的不是漂亮句子，而是能不能把論文、機制、方法、限制條件和實驗目標串起來。這不是「懂不懂」，這是「能不能用」。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782198202904-lzgm.png\" alt=\"LifeSciBench 讓模型先過科研關\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>我之前看過不少團隊把模型拿去跑泛用 QA，分數很體面，然後就開始講「我們已經能做科研輔助」。結果一進到 lab workflow，問題立刻露餡：它會摘要，不會判斷；會補字，不會比較；會講結論，不會告訴你這個結論能不能信。這種評分方式最大的問題，就是把會說話誤認成會工作。\u003C\u002Fp>\u003Cp>實操上，我會直接把評測題從「請回答這個問題」換成「請處理這個任務」。例如：\u003C\u002Fp>\u003Cul>\u003Cli>比較兩篇論文的實驗設計差異。\u003C\u002Fli>\u003Cli>找出一個結論在什麼條件下可能不成立。\u003C\u002Fli>\u003Cli>根據限制條件，提出下一步實驗。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>只要題目一改，模型能不能真的幫忙就很明顯了。這也是 LifeSciBench 讓我覺得順眼的地方，它不是在幫模型洗白，而是在把模型拉回工作現場。\u003C\u002Fp>\u003Ch2>知識整合才是生命科學模型的真正考題\u003C\u002Fh2>\u003Cp>LifeSciBench 的重點之一是 knowledge integration。這個詞聽起來很學術，實際上很土：就是你不能只會背一篇論文，你得知道怎麼把多篇\u003Ca href=\"\u002Fnews\u002Fautodex-automates-dexterous-grasp-data-collection-zh\">資料\u003C\u002Fa>拼成一個能用的判斷。\u003C\u002Fp>\u003Cp>生命科學最煩的地方就在這裡。機制、數據、方法、樣本條件、模型假設，全部都會互相打架。兩篇 paper 的結果不一致，不一定是誰錯，常常只是條件不同。會做研究的人知道要看 context；不會的模型就只會把句子接起來，接得像樣，錯得安靜。\u003C\u002Fp>\u003Cp>我自己碰過最典型的狀況，是拿模型去整理一條 target pathway。它可以把每個名詞都講對，甚至還能排出一個看起來很順的敘述。但只要我追問：「這兩篇結果為什麼不同？」它就開始滑坡，講一些泛泛的可能性，完全沒有把 evidence 和 speculation 分開。那種回答很像一個很會裝懂的實習生，嘴很快，手很慢。\u003C\u002Fp>\u003Cp>實操寫法我會這樣做：\u003C\u002Fp>\u003Cul>\u003Cli>做多來源題，不要只給單篇論文。\u003C\u002Fli>\u003Cli>刻意放入互相矛盾的結果，看模型會不會解釋差異。\u003C\u002Fli>\u003Cli>要求模型標出哪些是證據，哪些只是推測。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>如果你的產品是給研究人員用，這一關比語氣自然重要太多。研究人員不缺順口溜，他們缺的是一個不亂攪局的判斷器。\u003C\u002Fp>\u003Ch2>實驗設計這關過不了，前面分數再高都白搭\u003C\u002Fh2>\u003Cp>我很在意 LifeSciBench 把 experimental design 放進來，因為這才是很多模型最容易翻車的地方。講機制很容易，設計實驗很難。前者是把話說完整，後者是要你知道怎麼證明自己沒在瞎猜。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782198199747-7nxb.png\" alt=\"LifeSciBench 讓模型先過科研關\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>設計實驗不是只會說「可以測一下」。你得知道 control 是什麼、confounder 是什麼、readout 怎麼選、樣本數夠不夠、結果出來要怎麼解讀。少了這些，模型給的就只是看起來合理的建議，離可執行還差很遠。\u003C\u002Fp>\u003Cp>我以前看過一個 demo，模型對某個生物機制講得頭頭是道，最後被問一句「那你建議怎麼驗證？」它就開始空轉。這不是小瑕疵，這是整個用途直接打折。因為科研不是寫作文，不能只交一段漂亮結論。\u003C\u002Fp>\u003Cp>如果我自己要做評測，我會把這幾件事寫進 rubric：\u003C\u002Fp>\u003Cul>\u003Cli>有沒有清楚列出對照組與變因。\u003C\u002Fli>\u003Cli>有沒有說明這個實驗為什麼能驗證假說。\u003C\u002Fli>\u003Cli>有沒有指出可能失敗的原因。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>更狠一點，我會要求模型回答「什麼結果會推翻你的假設」。這題很有效，因為會把只會順著講的模型直接逼出原形。能不能接受反證，通常比會不會講漂亮話更能看出它懂不懂科研。\u003C\u002Fp>\u003Ch2>這不只給研究員看，採購和產品團隊更該看\u003C\u002Fh2>\u003Cp>很多人以為 benchmark 只是模型團隊在玩的東西，我不這麼看。對採購、產品、甚至法務來說，benchmark 其實是在幫你把「好不好用」變成可以對話的標準。尤其生命科學這種高風險場景，不能只靠 demo 氣氛做決定。\u003C\u002Fp>\u003Cp>LifeSciBench 這類基準最大的價值，就是把評估語言統一起來。沒有這個語言，每個供應商都可以自己定義成功：今天說準確率，明天說流暢度，後天說使用者滿意度，最後就是誰簡報做得好誰贏。這種玩法我看太多了，真的很煩。\u003C\u002Fp>\u003Cp>我會建議團隊直接把採購問題換成更硬的版本：\u003C\u002Fp>\u003Cul>\u003Cli>你們測的是哪一類科研任務？\u003C\u002Fli>\u003Cli>你們怎麼分辨推理和背答案？\u003C\u002Fli>\u003Cli>有沒有失敗案例？\u003C\u002Fli>\u003C\u002Ful>\u003Cp>實操上，我會先做一頁自己的評測表，不要一開始就信 vendor 的簡報。把你們真正在意的任務列出來：文獻回顧、靶點比較、protocol 草擬、結果解讀、失敗分析。再把每個任務的最低可接受標準寫清楚。這樣你才知道模型是在幫忙，還是在演。\u003C\u002Fp>\u003Ch2>如果我要把它做成產品，我會先拆成三條線\u003C\u002Fh2>\u003Cp>LifeSciBench 對我來說，不只是 benchmark，還像一張提醒卡：別把 retrieval、reasoning、workflow support 混在一起裝成一件事。很多產品死得很冤，就是因為把這三件事揉成一團，然後說自己「懂研究」。\u003C\u002Fp>\u003Cp>我如果要做一個生命科學助手，第一件事就是把能力拆開。檢索是檢索，推理是推理，實驗規劃是實驗規劃。這三條線的失敗模式完全不一樣，不能用同一個分數糊弄過去。第二件事是把不確定性攤開來，別假裝模型每次都很有把握。科學工作最怕的就是把模糊答案包裝成定論。\u003C\u002Fp>\u003Cp>第三件事，我會讓模型「交代它怎麼想」，但不是那種假裝有 chain-of-thought 的表演，而是讓它把依據、假設、限制條件講明白。研究人員要的不是神諭，是可檢查的判斷。只要這件事做不到，產品再順口都沒用。\u003C\u002Fp>\u003Cp>這也是我覺得 LifeSciBench 很實際的地方。它不是在吹模型有多厲害，而是在提醒你：如果你要進生命科學，就得先證明你能在這種工作裡活下來。\u003C\u002Fp>\u003Ch2>可抄的模板\u003C\u002Fh2>\u003Cpre>\u003Ccode># LifeSciBench-style 生命科學模型評測模板\n\n## 目標\n評估模型能不能支援真實生命科學工作，而不只是回答看起來很聰明的問題。\n\n## 任務類型\n1. 文獻理解\n   - 精準摘要單篇論文\n   - 比較兩篇結論衝突的研究\n   - 抽取機制、方法、限制\n\n2. 知識整合\n   - 串起多篇來源的證據\n   - 區分 evidence 和 speculation\n   - 解釋為什麼不同研究會得出不同結果\n\n3. 實驗設計\n   - 提出可驗證的實驗\n   - 列出對照組、readout、confounders\n   - 說明什麼結果會支持或推翻假說\n\n4. 工作流支援\n   - 草擬 protocol 大綱\n   - 建議 inconclusive result 的下一步\n   - 找出實務限制與失敗模式\n\n## 評分規則\n每題 1 到 5 分，分別看：\n- Accuracy\n- Reasoning quality\n- Evidence use\n- Experimental usefulness\n- Uncertainty handling\n\n## 失分紅旗\n- 很有自信但沒有證據\n- 忽略對照組或 confounders\n- 把相關性講成因果\n- 沒有處理衝突證據\n- 給出漂亮但不能行動的答案\n\n## 題目格式\nTask: [任務]\nContext: [paper \u002F dataset \u002F lab scenario]\nQuestion: [要模型做什麼]\nConstraints: [時間、預算、方法、資料]\nOutput requirements:\n- Clear answer\n- Assumptions listed\n- Evidence cited\n- Limitations stated\n- Next step recommended\n\n## 評測流程\n1. 跑模型完成所有任務。\n2. 找領域專家抽樣評分。\n3. 記錄失敗案例。\n4. 更新 prompt 和 rubric。\n5. 每次模型大改版後重測。\n\n## 採購提問清單\n- 你們測過哪些生命科學任務？\n- 怎麼區分 reasoning 和 fluency？\n- 能不能提供失敗案例？\n- 模型怎麼處理互相衝突的證據？\n- 它怎麼支援實驗設計？\n\n## 通過標準\n模型只有在能做到以下幾件事時才算及格：\n- 準確摘要證據\n- 整合多來源資訊\n- 提出可辯護的實驗\n- 說清楚不確定性\n- 避免無根據的科學斷言\u003C\u002Fcode>\u003C\u002Fpre>\u003Cp>這段我會真的存進 repo 或內部文件。因為生命科學評測最怕的就是一不小心變成口號，大家都說自己有在看 quality，實際上沒人知道 quality 到底是什麼。\u003C\u002Fp>\u003Cp>原始來源是 \u003Ca href=\"https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F2050933474085885689\">https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F2050933474085885689\u003C\u002Fa>。我這篇的拆解是基於那篇 Zhihu 整理，再加上我自己對生命科學模型評測的工作流整理；如果你要看原始 benchmark 脈絡，可以再去對照 \u003Ca href=\"https:\u002F\u002Fopenai.com\u002F\">OpenAI\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002F\">Hugging Face\u003C\u002Fa> 和 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002F\">arXiv\u003C\u002Fa> 上的相關\u003Ca href=\"\u002Fnews\u002Fbaya-openchip-bet-ai-silicon-data-movement-zh\">資料\u003C\u002Fa>。\u003C\u002Fp>","我拆 LifeSciBench 怎麼把生命科學模型評估拉回真實科研工作，順手給你一份可直接抄的評測模板。","zhuanlan.zhihu.com","https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F2050933474085885689",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782198202904-lzgm.png","research","zh","96178a82-96e4-42e6-ab00-6c8c09059d5a",[17,18,19,20,21],"LifeSciBench","benchmark","life sciences","model evaluation","experimental design",[23,24,25],"泛用 benchmark 很容易把會聊天的模型誤判成會科研。","生命科學評測要盯住知識整合與實驗設計，不只看答案順不順。","最實用的做法是把自己的科研任務做成可重複的評測模板。",0,"2026-06-23T07:02:47.182473+00:00","2026-06-23T07:02:47.173+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":31,"relatedLang":33,"relatedPosts":37},[32],{"name":18,"slug":18},{"id":15,"slug":34,"title":35,"language":36},"lifescibench-tests-biotech-models-en","LifeSciBench lets you test biotech models","en",[38,44,50,56,62,68],{"id":39,"slug":40,"title":41,"cover_image":42,"image_url":42,"created_at":43,"category":13},"f6fbee54-8ee4-4ad1-a6bb-a3f2ac890430","coordex-humanoid-loco-manipulation-priors-zh","CoorDex 讓人形機器人邊走邊操作","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782196378261-6x4x.png","2026-06-23T06:32:32.262148+00:00",{"id":45,"slug":46,"title":47,"cover_image":48,"image_url":48,"created_at":49,"category":13},"7171fed6-f304-4f46-9efe-f691ea304b65","randomized-yarn-long-context-reasoning-zh","Randomized YaRN 讓長上下文更穩","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782195475543-rsm6.png","2026-06-23T06:17:32.36653+00:00",{"id":51,"slug":52,"title":53,"cover_image":54,"image_url":54,"created_at":55,"category":13},"56da2379-5b47-4f3d-827f-e50d8be5d015","autodex-automates-dexterous-grasp-data-collection-zh","AutoDex 自動蒐集靈巧抓取資料","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782194579214-qano.png","2026-06-23T06:02:31.192727+00:00",{"id":57,"slug":58,"title":59,"cover_image":60,"image_url":60,"created_at":61,"category":13},"e4e8944f-676d-4f8b-823f-2bce38a09587","anthropic-scale-lead-frontier-ai-moat-zh","Anthropic 的規模領先，才是前沿 AI 真正的護城河","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782169366176-b59n.png","2026-06-22T23:02:23.331672+00:00",{"id":63,"slug":64,"title":65,"cover_image":66,"image_url":66,"created_at":67,"category":13},"faea762d-3f1d-446a-89af-d8278d8eb21f","teampcp-supply-chain-ai-poisoning-zh","TeamPCP 供应链投毒升級","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782162173285-n712.png","2026-06-22T21:02:22.730536+00:00",{"id":69,"slug":70,"title":71,"cover_image":72,"image_url":72,"created_at":73,"category":13},"cfe36fb5-68ec-480a-a9be-04660e360468","ethereum-wikipedia-dev-cheat-sheet-zh","Ethereum 把 Wikipedia 變開發者速查表","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782152293852-4cw2.png","2026-06-22T18:17:49.917842+00:00",[75,80,85,90,95,100,105,110,115,120],{"id":76,"slug":77,"title":78,"created_at":79},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":81,"slug":82,"title":83,"created_at":84},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":86,"slug":87,"title":88,"created_at":89},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":91,"slug":92,"title":93,"created_at":94},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":96,"slug":97,"title":98,"created_at":99},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":101,"slug":102,"title":103,"created_at":104},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":106,"slug":107,"title":108,"created_at":109},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":111,"slug":112,"title":113,"created_at":114},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":116,"slug":117,"title":118,"created_at":119},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":121,"slug":122,"title":123,"created_at":124},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]