分類

技術研究

AI 研究論文、突破性進展與技術深度分析。從學術發表到影響 AI 未來的實驗室研究成果。

WorldEvolver 讓 LLM 代理自我修正前瞻

WorldEvolver 讓 LLM 代理自我修正前瞻

WorldEvolver 透過測試時記憶修訂，讓 LLM 代理在不改權重下更新前瞻與規劃能力。

LeVo 2 用分層建模做完整歌曲生成

LeVo 2 用分層建模做完整歌曲生成

LeVo 2 透過分層表示與漸進式後訓練，改善完整歌曲生成的穩定性、可控性與音樂性。

VLK 用合成場景訓練人形機器人

VLK 用合成場景訓練人形機器人

VLK 證明可用重建室內場景合成視覺、語言與運動監督，訓練人形機器人完成導航與單物件搬運。

Claude Sonnet 4.6 對上 SRE 工作更接近 Opus

Claude Sonnet 4.6 對上 SRE 工作更接近 Opus

Rootly 的 SRE benchmark 顯示，Claude Sonnet 4.6 在事故調查上已接近 Opus 4.6，且每百萬輸出 Token 成本低約 40%。

GLM 5.2 在 IDOR 測試贏過 Claude

GLM 5.2 在 IDOR 測試贏過 Claude

Semgrep 的 IDOR benchmark 顯示，GLM 5.2 在純提示詞條件下 F1 贏過 Claude Code，且每個漏洞成本約 0.17 美元。

OPD 讓你把技能蒸餾進模型

OPD 讓你把技能蒸餾進模型

我拆 On-Policy Distillation 的做法，整理成可直接套用的後訓練模板，少碰硬拼 RL。

Google DeepMind把AI變研究工具

Google DeepMind把AI變研究工具

我拆 Google DeepMind 這頁，看看它怎麼把 AI 從口號包成研究工具，讓開發者能抄走定位、流程與模板。

LLM 行為不一定可移植

LLM 行為不一定可移植

這篇研究指出，LLM 在一個情境學到的行為，常常無法穩定轉移到報酬等價但表面不同的環境。

Prompt injection 已是 AI 資安問題

Prompt injection 已是 AI 資安問題

Prompt injection 會用隱藏文字操控 LLM。近期測試顯示，像 DeepSeek-R1 這類模型，仍可能在注入攻擊下失手。

求解器會改變納許均衡

求解器會改變納許均衡

這篇論文指出，在多重納許均衡的零和博弈裡，不同求解器不只會收斂，還會系統性挑不同的均衡。

正向樣本學習的完整界線

正向樣本學習的完整界線

這篇論文給出正向樣本學習的完整判準：只有 VC 維度有限還不夠，還得滿足 uniform exterior separability。

DexCompose 讓手部技能可重用

DexCompose 讓手部技能可重用

DexCompose 用手指級的動作分工，把已訓練好的靈巧手策略組成多任務操作，並在 16 個任務上達到 77.4% 平均成功率。

HaWoR 把手部重建收斂成 MANO

HaWoR 把手部重建收斂成 MANO

我拆 HaWoR 之後，只剩一個重點：它不是在猜手的網格，而是在預測 MANO 參數，整個 pipeline 會乾淨很多。

NVIDIA 3 萬美元補助瞄準 USC 健康 AI

NVIDIA 3 萬美元補助瞄準 USC 健康 AI

USC 公布 NVIDIA 3 萬美元學術補助，主打健康與 AI 研究，申請截止日是 2026 年 6 月 30 日，內容是 H100 GPU 時數，不是現金。

CUDA 13.3 修掉巢狀分歧編譯錯誤

CUDA 13.3 修掉巢狀分歧編譯錯誤

CUDA Toolkit 13.3 修掉一個從 12.8 就存在的編譯器錯誤。這個 bug 會在巢狀分歧的 GPU kernel 裡弄壞暫存器值，結果可能是算錯，不是當掉。

EAGLE3 才是 Kimi-K2.5 在 MI325X 上真正的加速器

EAGLE3 才是 Kimi-K2.5 在 MI325X 上真正的加速器

我認為 Kimi-K2.5-W4A8 在 AMD MI325X 上變快，主因是 EAGLE3 的 speculative decoding，不是 kernel 微調；真正改變的是解碼幾何，而不是單一算子效率。

LLM 微調把通用模型變專用工具

LLM 微調把通用模型變專用工具

我把企業 LLM 微調拆成一套可直接抄的流程：先判斷該不該微調，再做資料清理、模型選擇、評估與上線。

ArBG 改用自回歸做分子採樣

ArBG 改用自回歸做分子採樣

ArBG 把 Boltzmann Generator 從 flow 改成自回歸建模，主打更快、更可擴展的平衡態分子採樣。

RiVER 讓 LLM 不靠標準答案也能學

RiVER 讓 LLM 不靠標準答案也能學

RiVER 證明 LLM 可以只靠執行回饋與分數校準，在沒有標準答案的任務上學出更好的策略。

DanceOPD：把修圖技能蒸餾進同一模型

DanceOPD：把修圖技能蒸餾進同一模型

DanceOPD 用 on-policy 蒸餾，把文生圖與編輯能力放進同一個 flow-matching 模型，減少彼此互相干擾。

Microsoft 砸錢研究團隊協作 AI

Microsoft 砸錢研究團隊協作 AI

Microsoft Research 開出 2026 春季 CFP，研究 AI 怎麼幫團隊協作。每案約 5 萬到 7.5 萬美元，重點放在會議、分工、共識與群體生產力。

3 篇 AI 論文：程式、音樂、罕病診斷

3 篇 AI 論文：程式、音樂、罕病診斷

知乎整理 3 篇 arXiv AI 論文，涵蓋程式生成、即時音樂與罕病診斷。重點不在聊天，而是不同架構如何處理結構、延遲與專業推理。

新 NLP 論文盯上代理記憶與工具使用

新 NLP 論文盯上代理記憶與工具使用

6 月 24 日的 arXiv 論文整理，聚焦 agent 記憶、工具使用評估與對話式搜尋，對做 AI 代理和搜尋助理的人很實用。

自蒸餾會縮小模型多樣性

自蒸餾會縮小模型多樣性

這篇論文指出，自蒸餾能拉高 pass@1，卻會壓縮輸出多樣性，讓模型在分布外情境更脆弱。

RevengeBench：反推遊戲政策的測試框架

RevengeBench：反推遊戲政策的測試框架

RevengeBench把隱藏遊戲政策的反向工程做成可測試任務，證明主動探測能讓 LLM 更接近還原可執行策略。

先學動作先驗，再對齊多模態

先學動作先驗，再對齊多模態

這篇論文證明，先用動作軌跡學出 motion prior，再做視覺語言對齊，能讓跨具身操作訓練更快、成功率更高。

OPSD 讓你把點擊變訓練

OPSD 讓你把點擊變訓練

我把 OPSD 拆成一個可直接抄的閉環：怎麼把隱性用戶回饋變成校正資料，再持續訓練模型。

UltraQuant：4-bit KV 快取加速長代理

UltraQuant：4-bit KV 快取加速長代理

UltraQuant 證明 4-bit KV 快取能讓長篇多輪代理在更少記憶體下維持更多上下文，並在後段輪次明顯加速服務。

FLUX3D 讓 3DGS 保住細節

FLUX3D 讓 3DGS 保住細節

FLUX3D 透過對齊稀疏 3D latent 與密集 2D token，改善影像轉 3D Gaussian 時的細節流失問題。

隨機次梯度最後一輪界更緊了

隨機次梯度最後一輪界更緊了

這篇論文把 1D 隨機次梯度法的最後一輪收斂界收緊，也證明只看變異數不夠。

已到底部