工具應用/5月20日
TurboQuant 把 vLLM KV 快取壓成 3 位元
我拆 TurboQuant 怎麼把 vLLM 的 KV cache 壓到 3-bit,順手整理成可直接套用的部署判斷與模板。
工具應用/4月3日
NVIDIA 論壇聊 SU(7) CUDA 晶格引擎
NVIDIA Developer Forums 一篇貼文把 7×7×7 晶格、shared memory、warp 與 bank conflict 放在一起談。重點不是 SU(7) 名字多炫,而是 CUDA 真的吃不吃這套。