7 個把原始資料編成可追溯 Wiki 的功能
7 項功能看 llm-wiki-compiler 如何把筆記、文件與論文編成可連結的 wiki,還保留引用、稽核與代理人存取。

llm-wiki-compiler 能把筆記、文件和論文編成可追溯的連結式 wiki,方便後續查證、維護與交給代理人使用。
如果你正在評估一套「從原始資料到可用知識庫」的工具,這 7 項功能足以幫你判斷:它適不適合拿來做研究整理、團隊文件,或是長期維護的內部百科。
| 項目 | 主要效益 | 關鍵細節 |
|---|---|---|
| 編譯後 wiki | 結構化輸出 | 型別頁面與引用 |
| 混合檢索 | 更穩定找證據 | Embeddings、BM25、圖擴展 |
| 本機檢視器 | 方便瀏覽稽核 | 搜尋、圖譜、引用標記 |
| 評測框架 | 品質檢查 | 健康分數與回歸差異 |
| MCP 伺服器 | 代理人可用 | Claude Desktop、Cursor context pack |
1. 編譯後的 wiki 輸出
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
atomicstrata/llm-wiki-compiler 的核心不是摘要,而是把零散來源編成能長期保存的 wiki。它會把內容整理成 concept、entity、comparison、overview 這類型別頁面,並把段落與主張層級的引用連回原始行號。

這種輸出適合要留下可讀、可查、可再利用成果的人,而不是只想要一次性答案的人。它受到 Karpathy 的 LLM Wiki 概念啟發,但多了明確的 provenance 與頁面型別,後續交接會更順。
- 輸入:notes、docs、papers、READMEs、ADRs
- 輸出:互相連結的 markdown 頁面
- 引用:claim-level source line ranges
2. 混合檢索流程
它不是只靠向量相似度找資料。流程會先用可增量、可追蹤內容雜湊的 embeddings 篩出候選,再用 BM25 重新排序,最後用 wikilink graph 擴展上下文,組成更完整的 evidence pack。
這個設計對資料量漸增的專案特別有用。當來源不再只是幾個檔案時,單靠語意相似度很容易漏掉關鍵脈絡,混合檢索能把精準度和召回率拉回平衡。
- semantic chunk embeddings 做 top-K 收斂
- BM25 reranking 補 lexical precision
- graph expansion 補連結上下文
3. 本機瀏覽與稽核介面
llmwiki view 提供只讀的瀏覽器介面,讓你直接看編譯後的 wiki。側欄導覽、搜尋、force-directed graph,還有每頁的 provenance chips,都讓查證來源變得直觀。

這一層很重要,因為它把輸出從機器可讀的資料,變成真人也能審閱的知識庫。你不必翻 JSON 或 log,就能像逛內部百科一樣檢查內容。
- 只讀瀏覽器介面
- 側欄導覽與站內搜尋
- 圖譜視圖與引用標記
4. 評測框架與健康檢查
專案內建 llmwiki eval,會從 0 到 100 評估 wiki health,並回報 citation coverage、precision 與 regression deltas。它也支援 LLM-as-judge,適合放進 CI 做閾值檢查。
對團隊來說,這是很實際的保護網。你可以在變更擴散前知道新一輪 ingest 是改善了內容,還是把引用弄壞,或是悄悄讓品質下滑。
llmwiki eval --threshold 85 --judge --json
5. 新鮮度、回滾與稽核歷史
知識庫最怕來源變動後沒人發現。這個工具會追蹤 stale 與 orphaned pages,支援 llmwiki refresh --stale 這種定點修補,也會把每次 ingest、compile、query 寫進持久化操作紀錄。
它還提供 rollback 與 diff 報告,適合需要回復錯誤 ingest,或向同事解釋某頁為何改動的場景。再加上 .llmwiki/last-lint.json 的快取,viewer 也能直接顯示最近的健康結果。
- stale claim 檢查與 freshness 報告
- 回滾與 compile diff 報告
- timestamped log.md 稽核軌跡
6. MCP 伺服器與 in-process SDK
llmwiki serve 把整個流程暴露成 MCP,讓 Claude Desktop、Cursor、Claude Code 這類工具可以直接拿到有預算控制、帶引用的 context pack。這讓它不只是 CLI,而是可以進入代理人工作流的記憶層。
如果你想把它嵌進自己的應用,createWiki({ root }) 也能在同一個程序裡跑 ingest、compile、query、status、freshness、export 和 eval。比起每一步都 shell out,這種方式更適合客製化工具。
createWiki({ root }).query("what changed?")
7. 多供應商支援與匯出路徑
這套工具能搭配多種模型後端,包括 Anthropic、Claude Agent SDK、OpenAI-compatible servers、Ollama 與 GitHub Copilot。它也能匯出 typed JSON envelopes,並匯入 atomicmemory/llmwiki,作為原樣的 Atomic Memory records。
這種可攜性對混用雲端 API 和本地模型的團隊很重要。你可以保留同一套工作流程,只換 provider 設定,就能在真實環境裡測試不同部署方式。
- Anthropic 與 Claude Agent SDK 支援
- OpenAI-compatible 本地伺服器與 Ollama
- JSON export 可接 runtime memory system
哪種適合你
如果你要的是「可追溯、可更新、可交給代理人」的 source-to-wiki 流程,這個專案很對路。研究者、技術寫作者、維護者,或任何需要長期保留知識資產的人,都會比只看一次性摘要更有收穫。
如果你的需求只是幾個檔案的快速搜尋,完整編譯器可能偏重;但只要你想要一個能持續刷新、能評測、能稽核的知識庫,這套設計就很有價值。