標籤

reliability

3 篇文章

GitHub 故障拖慢微軟 AI 編碼優勢

產業動態/5月27日

GitHub 故障拖慢微軟 AI 編碼優勢

我拆 GitHub 故障與 Azure 轉移卡住微軟 AI 編碼優勢的原因，最後給你一份可直接套用的穩定性 playbook。

LLM 評審也會不穩

技術研究/5月14日

LLM 評審也會不穩

這篇論文做了一個壓力測試工具，檢查 LLM 當評審時，會不會因為格式、改寫、篇幅或標籤翻轉而判斷不一致。

LLM 評審別只看平均分

技術研究/4月17日

LLM 評審別只看平均分

這篇論文提醒：LLM 當評審時，平均表現看起來穩，不代表每個輸入都可靠。作者用 transitivity 檢查與 conformal prediction sets，抓出輸入層級的不一致與不確定性。