DGX Spark Ollama 默默把你的 Gemma4 KV cache 撐到 256K:DGX Spark 配置優化的真實坑 DGX Spark + Gemma4 31B + Ollama 預設配置會默默把 KV cache 拉到 256K context,21GB unified memory 蒸發,inference 卡 28 分鐘。記錄 root cause 與最佳配置:FA=0、KV cache f16、num_ctx 鎖 8K、用 /api/chat 不用 /v1/chat/completions。
Ollama Ollama + bge-m3 Embedding 產生 NaN 導致寫入失敗:完整診斷與修復 Ollama + bge-m3 embedding 對長中文文字產生 NaN,root cause 是 flash attention F16 overflow。一個環境變數修復:OLLAMA_FLASH_ATTENTION=0