Maki Chiang|Notes
  • Home
  • About
Sign in Subscribe

Ollama

A collection of 3 posts
Ollama 默默把你的 Gemma4 KV cache 撐到 256K:DGX Spark 配置優化的真實坑
DGX Spark

Ollama 默默把你的 Gemma4 KV cache 撐到 256K:DGX Spark 配置優化的真實坑

DGX Spark + Gemma4 31B + Ollama 預設配置會默默把 KV cache 拉到 256K context,21GB unified memory 蒸發,inference 卡 28 分鐘。記錄 root cause 與最佳配置:FA=0、KV cache f16、num_ctx 鎖 8K、用 /api/chat 不用 /v1/chat/completions。
27 4月 2026 9 min read
Ollama + bge-m3 Embedding 產生 NaN 導致寫入失敗:完整診斷與修復
Ollama

Ollama + bge-m3 Embedding 產生 NaN 導致寫入失敗:完整診斷與修復

Ollama + bge-m3 embedding 對長中文文字產生 NaN,root cause 是 flash attention F16 overflow。一個環境變數修復:OLLAMA_FLASH_ATTENTION=0
12 4月 2026 4 min read
本機 LLM 不是本機:Ollama 公網曝露的風險
資安

本機 LLM 不是本機:Ollama 公網曝露的風險

當本機 LLM 服務端點曝露到公網,風險不只算力被偷用,更可能引發資料外洩與整合鏈的連鎖問題。這篇整理我會怎麼看、以及最低限度的防護做法。
07 2月 2026 3 min read
Page 1 of 1
Maki Chiang|Notes © 2026
  • Sign up
Powered by Ghost