[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-llms-natural-language-tla-plus-specs-zh":3,"article-related-llms-natural-language-tla-plus-specs-zh":31,"series-research-e55c36bf-9fd4-4a56-aee9-ae741b04e3a3":84},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":23,"views":27,"created_at":28,"published_at":29,"topic_cluster_id":30},"e55c36bf-9fd4-4a56-aee9-ae741b04e3a3","llms-natural-language-tla-plus-specs-zh","LLM 寫 TLA+ 還不夠準","\u003Cp data-speakable=\"summary\">30 個 LLM 的測試顯示，它們能產生像樣的 TLA+，但語意正確率仍很低，還不適合直接拿來寫正式規格。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：Loyola University Chicago\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：語意正確率 8.6%\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：首次系統評估自然語言轉 TLA+\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這篇論文直接回答了一個很實務的問題：你用白話描述系統，LLM 能不能把它寫成正確的 TLA+ 規格？答案很明確，至少現在還不行。模型有時候能寫出可解析的內容，但要通過形式驗證，還是常常失手。\u003C\u002Fp>\u003Cp>這件事很重要，因為 TLA+ 本來就不是一般程式碼。它常被用在分散式與並行系統這類高風險場景。若 LLM \u003Ca href=\"\u002Fnews\u002Fk3-risc-v-zh\">真的能\u003C\u002Fa>幫忙起草規格，會省下很多入門成本；但如果它只是寫出看起來合理、實際語意錯掉的規格，風險反而更大。\u003C\u002Fp>\u003Ch2>這篇在解什麼痛點\u003C\u002Fh2>\u003Cp>寫 TLA+ 一直都難。它把時序邏輯、一階邏輯、集合論混在一起。也就是說，規格不只要語法正確，還要真的忠實描述系統行為。對工程師來說，最麻煩的不是打字，而是把需求、隱含假設、失敗模式、並行行為、以及一致性規則，翻成精確的數學語句。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781191091008-d1es.png\" alt=\"LLM 寫 TLA+ 還不夠準\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>LLM 之所以被拿來試，是因為它看起來很適合做這種「從自然語言到形式化表示」的轉換。既然它已經能處理不少程式任務，那能不能也幫忙寫 formal spec？問題在於，formal spec 比一般程式更嚴格。模型就算寫出能 parse 的內容，也可能漏掉公平性條件、弱化不變量，或少一個變數，整個系統語意就變了。\u003C\u002Fp>\u003Cp>作者也點出資料量的問題。TLA+ 的公開語料遠少於主流程式語言，模型在訓練時接觸得少很多。這讓它比一般 code generation 更難，也解釋了為什麼「自然語言轉 TLA+」一直沒被好好系統化評估。\u003C\u002Fp>\u003Ch2>方法怎麼做\u003C\u002Fh2>\u003Cp>這篇論文建立了一個包含 205 份 TLA+ 規格的 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa>，來源是 TLA+ Foundation。每份規格都配有自然語言註解和 TLC 設定，並切成 train、validation、test 三部分，用來評估模型能不能從白話生成 TLA+。\u003C\u002Fp>\u003Cp>研究\u003Ca href=\"\u002Fnews\u002Fclarity-act-floor-vote-prep-crypto-teams-zh\">團隊\u003C\u002Fa>一共測了 30 個 LLM，橫跨 8 個家族。包含 DeepSeek、LLaMA、Qwen、QwQ、GPT-OSS；也有偏 code 的模型，例如 CodeLLaMA 和 Granite；還有 instruction-tuned 模型，例如 Mistral、Phi、Gemma、Starling-LM；另外也測了 \u003Ca href=\"\u002Ftag\u002Fopenai\">OpenAI\u003C\u002Fa> GPT 與 \u003Ca href=\"\u002Ftag\u002Fanthropic\">Anthropic\u003C\u002Fa> \u003Ca href=\"\u002Ftag\u002Fclaude\">Claude\u003C\u002Fa> 這類商用 API。核心掃描涵蓋 25 個開源權重模型，搭配 4 種 prompting 策略，共做了 2,600 次實驗。另有 5 個商用模型只做 few-shot 測試，共 130 次。\u003C\u002Fp>\u003Cp>每個輸出都會檢查兩次。先用 SANY parser 看語法，再用 TLC model checker 看語意。這個分工很關鍵。語法只是在問「這是不是合法的 TLA+ 檔案」；語意則是在問「它有沒有真的描述對系統行為」。\u003C\u002Fp>\u003Cp>論文也比較了不同 prompt 方式，並分析失敗模式。其中一個重點是 progressive prompting。根據這篇研究，這是唯一有產生語意成功的策略。作者也觀察模型大小是否有幫助，以及 code-specialized 訓練到底是加分還是扣分。\u003C\u002Fp>\u003Ch2>實際證明了什麼\u003C\u002Fh2>\u003Cp>最直接的結果是：目前的 LLM 不是可靠的 TLA+ 規格作者。整體來看，最佳語法正確率只有 26.6%，語意正確率最高也只有 8.6%。換句話說，模型就算生成出看起來像 TLA+ 的內容，大多還是過不了語意驗證。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781191080915-zrsp.png\" alt=\"LLM 寫 TLA+ 還不夠準\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>另一個重要發現是，模型越大不代表越好。論文明確指出，模型大小無法預測品質，並舉出一個例子：DeepSeek r1:8b 在所有 prompting 策略下都比 70B 版本表現更好。作者因此認為，對 formal language 來說，比起單純堆參數，推理對齊更重要。\u003C\u002Fp>\u003Cp>研究也發現，code-specialized 模型整體上不如 general-purpose 模型。作者把這歸因於來自主流程式語言訓練的 negative transfer。這對團隊很實用，因為很多人會直覺以為「既然是 code model，寫 formal spec 應該更強」，但在 TLA+ 這裡，情況可能剛好相反。\u003C\u002Fp>\u003Cp>在失敗分析上，作者整理出五類常見幻覺：Unicode 運算子替換、跨語言語法注入、推理與格式洩漏、生成長度失準、以及結構性錯誤。這些問題被追溯到目前訓練資料的偏差，尤其是 code、formal math 和 reasoning samples 的分布。論文的核心意思不是 LLM 完全不能用，而是不能在沒有專家把關的前提下直接信任輸出。\u003C\u002Fp>\u003Ch2>對開發者的實際影響\u003C\u002Fh2>\u003Cp>如果你在做分散式系統、並行系統，或 verification-heavy 的基礎架構，這篇就是一個提醒。LLM 也許能幫你起草規格、打底、或先把描述整理成更像樣的格式，但它還遠不到「直接相信輸出」的程度。這裡最重要的落差，就是語法和語意之間的距離。\u003C\u002Fp>\u003Cp>這也暗示了一種比較務實的\u003Ca href=\"\u002Fnews\u002Fpressable-mcp-hands-on-hosting-control-zh\">工作流\u003C\u002Fa>：把 LLM 當助手，不要當作者。它可以幫忙試寫、改寫、探索不同表述，或在迭代過程中提供草稿，但最後的 spec 還是要靠懂形式方法的人加上 checker 來收尾。從這篇結果看，只靠 \u003Ca href=\"\u002Ftag\u002Fprompt-engineering\">prompt engineering\u003C\u002Fa> 並不能補上核心缺口；就算是研究裡表現最好的 prompting 策略，也沒把語意問題解掉。\u003C\u002Fp>\u003Cp>對工具開發者來說，作者提到兩個方向很明確：更高品質的 specification 資料集，以及 grammar-constrained generation。這很合理，因為他們觀察到的錯誤不是隨機雜訊，而是反覆出現的結構性失誤。若真的要讓 LLM 寫 formal spec，限制條件大概得比純文字 prompt 強很多。\u003C\u002Fp>\u003Cp>也要注意限制。這篇摘要沒有公開完整 benchmark 細節到每個模型家族的完整數字，也沒有宣稱這份資料集能涵蓋所有 TLA+ 類型。雖然如此，這份研究仍然有價值，因為它是系統化、可重現的評估，而且測的是對的東西：不是能不能長得像，而是能不能在形式驗證下真的對。\u003C\u002Fp>\u003Ch2>為什麼這篇值得注意\u003C\u002Fh2>\u003Cp>這篇工作有價值的地方，在於它量到的是正確指標。很多 AI for code 的研究只停在表面可用，像是能不能 parse、能不能 compile。但對 TLA+ 來說，真正重要的是生成的規格有沒有真的符合意圖。這篇論文把問題往前推了一步，直接看 formal checking 的結果。\u003C\u002Fp>\u003Cp>它也補上了一個研究空缺。先前和 GenAI、TLA+ 有關的工作，多半集中在從 code 生成 spec、限制語法，或用 spec 反過來引導 code generation。這篇則是直接挑更難的任務：從自然語言生成 TLA+。這讓它可以當成後續研究的 baseline，也是一個明確警訊：一般 LLM 的進步，並不等於已經解掉 formal specification。\u003C\u002Fp>\u003Cp>作者表示，他們會釋出 evaluation framework、code、dataset、models 和 results，方便重現與後續研究。對工程師來說，這代表它不只是批評現況，而是提供了一個可以繼續往下做的起點。\u003C\u002Fp>\u003Ch2>結論很直接\u003C\u002Fh2>\u003Cp>目前的 LLM 有時候能寫出看起來像 TLA+ 的內容，但在語意層級仍然太不穩。若你的團隊想把 AI 用在 formal methods，這篇論文的答案很清楚：可以輔助，不能自動化。\u003C\u002Fp>\u003Cul>\u003Cli>LLM 能產生 TLA+ 外觀，但語意正確率仍很低。\u003C\u002Fli>\u003Cli>Progressive prompting 有幫助，但無法解決核心問題。\u003C\u002Fli>\u003Cli>Formal spec 需要更強約束、更多資料與人工審查。\u003C\u002Fli>\u003C\u002Ful>","30 個 LLM 的測試顯示，它們能產生像樣的 TLA+，但語意正確率仍很低，還不適合直接拿來寫正式規格。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fhtml\u002F2606.05792",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781191091008-d1es.png","research","zh","e323567e-d980-4dff-96ee-61d7b93cf3ce",[17,18,19,20,21,22],"TLA+","LLM","formal methods","specification synthesis","TLC","SANY",[24,25,26],"30 個 LLM 的 benchmark 顯示，語法和語意之間有很大落差。","Progressive prompting 是唯一有語意成功的策略，但效果仍有限。","對正式規格生成來說，專家審查和形式檢查仍是必要流程。",2,"2026-06-11T15:17:33.459005+00:00","2026-06-11T15:17:33.452+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":32,"relatedLang":43,"relatedPosts":47},[33,35,37,39,41],{"name":19,"slug":34},"formal-methods",{"name":17,"slug":36},"tla",{"name":18,"slug":38},"llm",{"name":20,"slug":40},"specification-synthesis",{"name":21,"slug":42},"tlc",{"id":15,"slug":44,"title":45,"language":46},"llms-natural-language-tla-plus-specs-en","Can LLMs Write Correct TLA+ Specs?","en",[48,54,60,66,72,78],{"id":49,"slug":50,"title":51,"cover_image":52,"image_url":52,"created_at":53,"category":13},"34681ebb-0d9d-4988-822a-45b6e5ad46d6","2026-llm-paper-lists-better-than-feeds-zh","2026 年的 LLM 論文清單，比資訊流更適合做研究","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781258570660-0l2n.png","2026-06-12T10:02:16.438561+00:00",{"id":55,"slug":56,"title":57,"cover_image":58,"image_url":58,"created_at":59,"category":13},"8a06c20a-c2d6-4cb0-a35c-69eab7f7f89a","anthropic-ai-building-ai-recursive-self-improvement-zh","Anthropic 自己的數據已經證明：AI 正在幫 AI 進步","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781257685705-1m6f.png","2026-06-12T09:47:24.801004+00:00",{"id":61,"slug":62,"title":63,"cover_image":64,"image_url":64,"created_at":65,"category":13},"29143a1b-a610-4674-96a5-e3b1695350bd","project-glasswing-mythos-bug-chaining-zh","Project Glasswing 揭露 Mythos 會串漏洞","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781254982476-voas.png","2026-06-12T09:02:32.008908+00:00",{"id":67,"slug":68,"title":69,"cover_image":70,"image_url":70,"created_at":71,"category":13},"ba442703-edfa-4353-b256-db502d94a99e","mana-articulated-tool-manipulation-animation-zh","Mana把工具操作改寫成動畫","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781246882933-bvjm.png","2026-06-12T06:47:29.612828+00:00",{"id":73,"slug":74,"title":75,"cover_image":76,"image_url":76,"created_at":77,"category":13},"6911e614-4894-4f1f-a0ad-816e323793ef","retrieval-augmented-reinforcement-fine-tuning-analogy-zh","RA-RFT 讓模型學會類比推理","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781245983485-miul.png","2026-06-12T06:32:27.726554+00:00",{"id":79,"slug":80,"title":81,"cover_image":82,"image_url":82,"created_at":83,"category":13},"0a31ce5e-ef36-4043-bfaf-0bee0dde375a","evoarena-llm-agents-dynamic-environments-zh","EvoArena：測 LLM 代理在變動世界的記憶力","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781245091032-qidw.png","2026-06-12T06:17:32.741551+00:00",[85,90,95,100,105,110,115,120,125,130],{"id":86,"slug":87,"title":88,"created_at":89},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":91,"slug":92,"title":93,"created_at":94},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":96,"slug":97,"title":98,"created_at":99},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":101,"slug":102,"title":103,"created_at":104},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":106,"slug":107,"title":108,"created_at":109},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":111,"slug":112,"title":113,"created_at":114},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":116,"slug":117,"title":118,"created_at":119},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":121,"slug":122,"title":123,"created_at":124},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":126,"slug":127,"title":128,"created_at":129},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":131,"slug":132,"title":133,"created_at":134},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]