Maki Chiang|Notes
  • Home
  • About
Sign in Subscribe

DGX Spark

A collection of 1 post
Ollama 默默把你的 Gemma4 KV cache 撐到 256K:DGX Spark 配置優化的真實坑
DGX Spark

Ollama 默默把你的 Gemma4 KV cache 撐到 256K:DGX Spark 配置優化的真實坑

DGX Spark + Gemma4 31B + Ollama 預設配置會默默把 KV cache 拉到 256K context,21GB unified memory 蒸發,inference 卡 28 分鐘。記錄 root cause 與最佳配置:FA=0、KV cache f16、num_ctx 鎖 8K、用 /api/chat 不用 /v1/chat/completions。
27 4月 2026 9 min read
Page 1 of 1
Maki Chiang|Notes © 2026
  • Sign up
Powered by Ghost