技術研究/6月12日
2026 年的 LLM 論文清單,比資訊流更適合做研究
我主張,2026 年做 LLM 研究時,整理過的論文清單比即時資訊流更有用,因為它把零散論文變成可直接行動的脈絡。
技術研究/4月2日
Sebastian Raschka 的 LLM 架構圖鑑
Raschka 的 LLM Architecture Gallery 把 GPT-2、Llama 3、OLMo 2、DeepSeek、Qwen 等模型的層數、注意力與 KV cache 數字攤開來比,工程師一眼就能看出部署差異。