產業動態/5月27日
GitHub 故障拖慢微軟 AI 編碼優勢
我拆 GitHub 故障與 Azure 轉移卡住微軟 AI 編碼優勢的原因,最後給你一份可直接套用的穩定性 playbook。
技術研究/5月14日
LLM 評審也會不穩
這篇論文做了一個壓力測試工具,檢查 LLM 當評審時,會不會因為格式、改寫、篇幅或標籤翻轉而判斷不一致。
技術研究/4月17日
LLM 評審別只看平均分
這篇論文提醒:LLM 當評審時,平均表現看起來穩,不代表每個輸入都可靠。作者用 transitivity 檢查與 conformal prediction sets,抓出輸入層級的不一致與不確定性。