[RSCH] 7 分鐘閱讀OraCore 編輯部

ArXiv這批 AI 論文都在補三件事

這批 arXiv AI 論文集中在 agent 推理、長上下文資料、以及更貼近真實工作的 benchmark 設計。

分享 LinkedIn
ArXiv這批 AI 論文都在補三件事

這批 arXiv AI 論文在講 agent、記憶和資料。重點是模型不只會回話,還要會規劃、記住步驟,還能吃下更長的文件。

說真的,這批論文很像在補作業。papers.cool 上的 arXiv AI 目錄,6 月 17 日列出 214 篇。主軸很清楚,就是 agent、memory、data 三件事。

很多人還在盯模型參數。研究圈已經往前走了。現在更像是在問:模型能不能自己想下一步。能不能記住過去做過什麼。能不能吃進 10 萬、100 萬 token 的文件,還不亂掉。

Paper數字重點
EvolveNav成功率提升 10.1%零樣本導航加入 test-time learning
SEFD152B tokens、18.5M filings、550B token 估算金融長上下文資料集
DRFLOW100 tasks、1,246 steps、3,900+ sources個人化工作流程 benchmark

Agent 研究開始重視「先想再做」

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

這批裡最有意思的,是 EvolveNav。它做的是 zero-shot object-goal navigation。白話就是,agent 沒看過目標物件,也要自己找得到。

ArXiv這批 AI 論文都在補三件事

這類問題很難。因為模型不是只要答對。它還要少走冤枉路。每多一步,就多一次失誤機會。對機器人或模擬環境來說,浪費動作就是成本。

EvolveNav 的做法很務實。它把過去軌跡整理成 rule memory。再用 UCB retrieval 挑規則。還加了一個 preflection 模組,先預測下一步可能結果,再決定要不要動。

  • rule memory 把舊軌跡變成可重用知識。
  • UCB retrieval 同時看語意和成功率。
  • preflection 先猜結果,再執行動作。
  • 成功率提升 10.1%,而且少走冤枉路。

這種設計很像人類在做事。不是亂試。是先回想,再決定。講白了,這才像 agent,不像只會吐字的聊天機器。

“The challenge is not to generate a report, but to identify the correct action-step sequence for the user’s task.” — Md Tawkat Islam Khondaker et al., DRFLOW

Benchmark 也在變,因為真實工作不是摘要題

另一篇很值得看的是 DRFLOW。它在做的,不是單純問答。它要 agent 找出一整串正確工作流程。

這差很多。很多企業任務不是「寫一段摘要」。而是「先查哪裡,再比對什麼,再決定下一步」。如果 benchmark 只測總結,模型很容易假裝很會。

DRFLOW 的規模也不小。它有 100 個任務,跨 5 個領域。參考流程有 1,246 個步驟。來源超過 3,900 筆。它還設計 7 個診斷指標,去看 grounding、步驟回復、排序、條件處理和個人化。

結果也蠻誠實。DRFLOW-Agent 比強基線最高多出 10.02% average F1。這數字不算誇張,但夠真。因為 benchmark 如果一開始就被做爛,後面再高分也只是自嗨。

  • DRFLOW 有 100 tasks,覆蓋 5 個領域。
  • 參考流程共有 1,246 steps。
  • 資料來源超過 3,900 筆。
  • DRFLOW-Agent 最高提升 10.02% average F1。

你可能會想問,這跟一般 LLM benchmark 差在哪。差在它測的是「工作流」,不是「答案」。這對做企業軟體的人很重要。因為真實產品常常要接流程,不是接一段漂亮文字。

資料比模型更卡,長上下文現在是硬仗

這批裡最像基礎建設的,是 The Stanford EDGAR Filings Dataset。它把 SEC filings 整理成適合長上下文訓練的格式,還保留版面結構。

ArXiv這批 AI 論文都在補三件事

這件事很實際。公開網路文字越來越混。很多長文本資料要嘛太雜,要嘛太短,要嘛根本不能拿來訓練。財報和法規文件反而很有價值,因為它們密集、結構化,而且有明確事實。

這份資料集的數字很硬。SEFD-v1 有 152B tokens。更大的 archive 有 18.5M 份 filings。作者估算總量可到 550B tokens。還有一個很重要的點,是它和 Common Crawl 衍生資料的重疊不到 0.1%。

這代表什麼。代表它不是再把舊網頁磨一次。它提供的是不同分佈的資料。對 long-context pretraining 來說,這很有價值。因為模型如果只看網頁,最後很容易只學到網頁味。

它還加了兩個 benchmark。EDGAR-Forecast 測財報知識截止後的數字預測。EDGAR-OCR 測複雜財務表格轉錄。這組合很聰明,因為同時考 reasoning 和 document fidelity。

  • SEFD-v1:152B tokens。
  • archive:18.5M filings。
  • 估算總量:550B tokens。
  • 與 Common Crawl 重疊少於 0.1%。

Agent 已經跑進醫療、電力和硬體成本

這批論文的另一個訊號,是 agent 不再只活在聊天框。WEQA 把 LLM 和穿戴式健康工具接在一起。它比 LLM 和 agentic baselines 高出 24% accuracy。

這種題目很適合 agent。因為醫療場景不是單次回答。它需要多步查詢、比對和判斷。WEQA 還做了 blinded study,找了 12 位醫療專家和 8 位使用者。結果顯示,它在實用性和臨床合理性上都更好。

再看 LEADS。它把 LLM agent 放進心臟電生理 digital twins。重點不是讓模型自由發揮,而是讓它在結構化 action space 裡找混合模型。

這才是 agent 比較對的用法。不是拿來寫作文。是拿來做 guided search。模型負責找路。物理規則負責卡住亂跑。

Memory as a Wasting Asset 則很直接。它談的是 flash endurance。意思是,記憶寫入不是免費的。

這篇很像在提醒工程師。你在雲端上跑 agent,可能只看 token 成本。可是一到邊緣裝置或便宜儲存,P/E cycle 就會變成真錢。論文說,3,000 P/E 的 TLC 在規格上還撐得住,但 1,000 P/E 的 QLC 或 eMMC 就很容易卡到成本。

  • WEQA:accuracy 高 24%。
  • WEQA:做了 12 位醫療專家、8 位使用者的 blinded study。
  • LEADS:用 structured action space 找混合模型。
  • 記憶寫入有壽命成本,不是只有算力成本。

這批論文透露的產業脈絡很直接

我覺得這批 arXiv 最重要的訊號,不是某一篇分數多高。是整個研究圈開始把「做事」看得比「會講」更重。

以前很多 demo 都在比誰回得像人。現在大家更在意,模型能不能完成任務。能不能記住上下文。能不能在 test time 自己修正。能不能在資料不夠漂亮時,還維持穩定表現。

這也解釋了為什麼資料集會變重要。當模型能力拉近後,差距常常出在資料。誰有更好的長文本。誰有更乾淨的流程標註。誰能把文件結構保留下來。這些都會直接影響結果。

如果你是做產品的人,這批論文其實很有參考價值。你可以少看一點花俏 demo,多看一點 workflow、memory、retrieval、long-context。這些才是接下來真的會進企業系統的東西。

下一波 agent 競爭,會先比誰少走冤枉路

這批論文的結論很簡單。agent 會越來越像流程引擎。記憶會越來越像可更新的資產。資料集會越來越像產品本體,而不是附屬品。

如果你現在在做 LLM 產品,我會先問三件事。你的 agent 有沒有記憶。你的 benchmark 有沒有測流程。你的資料是不是只會吃 Common Crawl。這三題答不出來,通常就代表系統還沒準備好上線。

接下來最值得看的,不是模型又多了幾個參數,而是它少了幾次錯誤動作。少走一步,少浪費一個 token,少猜一次。這些看起來很小,累積起來就是產品差距。

講白了,下一輪 AI 競爭,先贏的可能不是最會講話的模型,而是最少出包的 agent。