技術研究
AI 研究論文、突破性進展與技術深度分析。從學術發表到影響 AI 未來的實驗室研究成果。

WorldEvolver 讓 LLM 代理自我修正前瞻
WorldEvolver 透過測試時記憶修訂,讓 LLM 代理在不改權重下更新前瞻與規劃能力。

LeVo 2 用分層建模做完整歌曲生成
LeVo 2 透過分層表示與漸進式後訓練,改善完整歌曲生成的穩定性、可控性與音樂性。

VLK 用合成場景訓練人形機器人
VLK 證明可用重建室內場景合成視覺、語言與運動監督,訓練人形機器人完成導航與單物件搬運。

Claude Sonnet 4.6 對上 SRE 工作更接近 Opus
Rootly 的 SRE benchmark 顯示,Claude Sonnet 4.6 在事故調查上已接近 Opus 4.6,且每百萬輸出 Token 成本低約 40%。

GLM 5.2 在 IDOR 測試贏過 Claude
Semgrep 的 IDOR benchmark 顯示,GLM 5.2 在純提示詞條件下 F1 贏過 Claude Code,且每個漏洞成本約 0.17 美元。

OPD 讓你把技能蒸餾進模型
我拆 On-Policy Distillation 的做法,整理成可直接套用的後訓練模板,少碰硬拼 RL。

Google DeepMind把AI變研究工具
我拆 Google DeepMind 這頁,看看它怎麼把 AI 從口號包成研究工具,讓開發者能抄走定位、流程與模板。

LLM 行為不一定可移植
這篇研究指出,LLM 在一個情境學到的行為,常常無法穩定轉移到報酬等價但表面不同的環境。

Prompt injection 已是 AI 資安問題
Prompt injection 會用隱藏文字操控 LLM。近期測試顯示,像 DeepSeek-R1 這類模型,仍可能在注入攻擊下失手。

求解器會改變納許均衡
這篇論文指出,在多重納許均衡的零和博弈裡,不同求解器不只會收斂,還會系統性挑不同的均衡。

正向樣本學習的完整界線
這篇論文給出正向樣本學習的完整判準:只有 VC 維度有限還不夠,還得滿足 uniform exterior separability。

DexCompose 讓手部技能可重用
DexCompose 用手指級的動作分工,把已訓練好的靈巧手策略組成多任務操作,並在 16 個任務上達到 77.4% 平均成功率。

HaWoR 把手部重建收斂成 MANO
我拆 HaWoR 之後,只剩一個重點:它不是在猜手的網格,而是在預測 MANO 參數,整個 pipeline 會乾淨很多。

NVIDIA 3 萬美元補助瞄準 USC 健康 AI
USC 公布 NVIDIA 3 萬美元學術補助,主打健康與 AI 研究,申請截止日是 2026 年 6 月 30 日,內容是 H100 GPU 時數,不是現金。

CUDA 13.3 修掉巢狀分歧編譯錯誤
CUDA Toolkit 13.3 修掉一個從 12.8 就存在的編譯器錯誤。這個 bug 會在巢狀分歧的 GPU kernel 裡弄壞暫存器值,結果可能是算錯,不是當掉。

EAGLE3 才是 Kimi-K2.5 在 MI325X 上真正的加速器
我認為 Kimi-K2.5-W4A8 在 AMD MI325X 上變快,主因是 EAGLE3 的 speculative decoding,不是 kernel 微調;真正改變的是解碼幾何,而不是單一算子效率。

LLM 微調把通用模型變專用工具
我把企業 LLM 微調拆成一套可直接抄的流程:先判斷該不該微調,再做資料清理、模型選擇、評估與上線。

ArBG 改用自回歸做分子採樣
ArBG 把 Boltzmann Generator 從 flow 改成自回歸建模,主打更快、更可擴展的平衡態分子採樣。

RiVER 讓 LLM 不靠標準答案也能學
RiVER 證明 LLM 可以只靠執行回饋與分數校準,在沒有標準答案的任務上學出更好的策略。

DanceOPD:把修圖技能蒸餾進同一模型
DanceOPD 用 on-policy 蒸餾,把文生圖與編輯能力放進同一個 flow-matching 模型,減少彼此互相干擾。

Microsoft 砸錢研究團隊協作 AI
Microsoft Research 開出 2026 春季 CFP,研究 AI 怎麼幫團隊協作。每案約 5 萬到 7.5 萬美元,重點放在會議、分工、共識與群體生產力。

3 篇 AI 論文:程式、音樂、罕病診斷
知乎整理 3 篇 arXiv AI 論文,涵蓋程式生成、即時音樂與罕病診斷。重點不在聊天,而是不同架構如何處理結構、延遲與專業推理。

新 NLP 論文盯上代理記憶與工具使用
6 月 24 日的 arXiv 論文整理,聚焦 agent 記憶、工具使用評估與對話式搜尋,對做 AI 代理和搜尋助理的人很實用。

自蒸餾會縮小模型多樣性
這篇論文指出,自蒸餾能拉高 pass@1,卻會壓縮輸出多樣性,讓模型在分布外情境更脆弱。

RevengeBench:反推遊戲政策的測試框架
RevengeBench把隱藏遊戲政策的反向工程做成可測試任務,證明主動探測能讓 LLM 更接近還原可執行策略。

先學動作先驗,再對齊多模態
這篇論文證明,先用動作軌跡學出 motion prior,再做視覺語言對齊,能讓跨具身操作訓練更快、成功率更高。

OPSD 讓你把點擊變訓練
我把 OPSD 拆成一個可直接抄的閉環:怎麼把隱性用戶回饋變成校正資料,再持續訓練模型。

UltraQuant:4-bit KV 快取加速長代理
UltraQuant 證明 4-bit KV 快取能讓長篇多輪代理在更少記憶體下維持更多上下文,並在後段輪次明顯加速服務。

FLUX3D 讓 3DGS 保住細節
FLUX3D 透過對齊稀疏 3D latent 與密集 2D token,改善影像轉 3D Gaussian 時的細節流失問題。

隨機次梯度最後一輪界更緊了
這篇論文把 1D 隨機次梯度法的最後一輪收斂界收緊,也證明只看變異數不夠。