DGX Spark Ollama 默默把你的 Gemma4 KV cache 撐到 256K:DGX Spark 配置優化的真實坑 DGX Spark + Gemma4 31B + Ollama 預設配置會默默把 KV cache 拉到 256K context,21GB unified memory 蒸發,inference 卡 28 分鐘。記錄 root cause 與最佳配置:FA=0、KV cache f16、num_ctx 鎖 8K、用 /api/chat 不用 /v1/chat/completions。