如果模型能跑但速度不理想（低於 10 tok/s），試試以下方法：確認 GPU 有被使用：nvidia-smi 查看 GPU utilization，如果是 0% 代表模型跑在 CPU 上在 Ollama 中增加 GPU layers：建立 Modelfile 設定 numgpu 參數用更激進的量化：Q4KS 比 Q4K_M 快約 10-15% Mac 使用者用 MLX 版本：比 llama.cpp 後端快 30-50%

返回首頁AI 開發工具

Gemma 4 本地部署教學：Ollama、LM Studio、Unsloth 三種方式完整攻略

Q: OOM（Out of Memory）錯誤

這是最常見的問題。症狀通常是模型載入到一半就 crash，或推理到一半被 kill。 解法： 換更小的量化版本：從 Q8 換到 Q4KM，或從 Q4 換到 Q3KS 降低 context length：把 context window 從 128K 降到 8K 或 4K 關閉其他吃記憶體的程式：Chrome 是最大的兇手 增加 swap space：Linux 上可以暫時增加 swap，雖然會變慢但至少能跑

Q: 推理速度太慢

如果模型能跑但速度不理想（低於 10 tok/s），試試以下方法： 確認 GPU 有被使用：nvidia-smi 查看 GPU utilization，如果是 0% 代表模型跑在 CPU 上 在 Ollama 中增加 GPU layers：建立 Modelfile 設定 numgpu 參數 用更激進的量化：Q4KS 比 Q4K_M 快約 10-15% Mac 使用者用 MLX 版本：比 llama.cpp 後端快 30-50%

Q: 模型下載失敗或中斷

如果 Hugging Face 下載速度太慢，可以用 hf_transfer 加速：

Q: 模型輸出亂碼或品質異常

通常是量化版本的問題。Q2、Q3 的低位元量化在某些任務上品質下降明顯。解法是換 Q4KM 以上的版本，或者加上 system prompt 來穩定輸出格式。 部署過程遇到搞不定的問題？聯繫我們的技術支援，我們提供本地 AI 部署的全流程技術支援。 ---

4/6/202619 min 分鐘閱讀

#Gemma 4#本地部署#Ollama#LM Studio#Unsloth#vLLM#量化#離線 AI#隱私#開發者教學

Gemma 4 本地部署教學：Ollama、LM Studio、Unsloth 三種方式完整攻略

在終端機下載並執行 Gemma 4 模型的畫面

TL;DR： Ollama 一行指令五分鐘跑起來，適合開發者快速驗證；LM Studio 有圖形介面，適合不想碰終端機的使用者；Unsloth 記憶體效率最高，還能無縫接上微調流程。三種方式都支援 Gemma 4 全系列模型，選哪個取決於你的使用場景。

「裝個 Ollama 就好了吧？」這是我聽到最多的回答。但實際上，Ollama 只是三種主流方案之一，而且不一定是最適合你的那個。

我在過去一週用三種方式分別部署了 Gemma 4 的 E4B 和 26B 版本，踩了不少坑，也發現了一些官方文件沒提到的細節。這篇文章把三種方式的完整流程、優缺點和常見問題一次講清楚。

不確定哪種部署方式最適合你的團隊？預約免費架構諮詢，讓我們的顧問根據你的硬體和需求推薦最佳方案。

想先了解 Gemma 4 的完整功能和模型家族？請參考 Gemma 4 完整指南。

為什麼要在本地跑 Gemma 4？三個理由

在開始動手之前，先想清楚一件事：你真的需要本地部署嗎？

如果你只是偶爾用一下，Google AI Studio 或 Vertex AI 的 API 可能更省事。但如果你符合以下任何一個情境，本地部署就是正確的選擇。

理由一：資料隱私與合規

醫療、金融、法律——這些產業的資料不能離開公司網路。本地部署意味著你的 prompt 和回應永遠不會經過第三方伺服器。GDPR、HIPAA、個資法，全部自動合規。

理由二：離線可用

飛機上、偏遠工地、網路不穩的工廠。本地部署讓你在完全離線的環境下也能用 AI。我有個客戶在離岸風電平台上用 Gemma 4 E4B 做設備檢測報告，完全不需要網路。

理由三：零 API 成本

API 按 token 計費，量一大就很嚇人。本地部署的邊際成本幾乎是零——硬體是一次性投資，電費可以忽略不計。如果你每天要處理幾十萬 token 的推理量，本地部署三個月就能回本。

部署前準備：確認你的硬體能跑哪個版本

動手之前，先確認你的硬體。選錯模型版本，輕則跑得像蝸牛，重則直接 OOM crash。

快速對照：

模型	4-bit VRAM 需求	推薦最低硬體
E2B (2.3B)	~1.5 GB	手機、Raspberry Pi
E4B (4.3B)	~3 GB	8GB RAM 筆電
26B MoE (A4B)	~16 GB	RTX 4060 Ti 16GB / M3 24GB
31B Dense	~18 GB	RTX 4090 24GB / M4 Pro 48GB

不確定自己該選哪個版本？完整的硬體需求分析請看 Gemma 4 硬體需求完整對照，裡面有每款 GPU 和 Apple Silicon 的實測速度。

方法一：用 Ollama 五分鐘跑起來

三種部署方式比較——CLI、GUI 與 API

Ollama 是目前最簡單的本地 LLM 部署工具，沒有之一。一行指令安裝，一行指令下載模型，一行指令開始對話。如果你是開發者，這是我最推薦的起步方式。

步驟一：安裝 Ollama

macOS：

# 方法一：直接下載
curl -fsSL https://ollama.com/install.sh | sh

# 方法二：用 Homebrew
brew install ollama

Linux：

curl -fsSL https://ollama.com/install.sh | sh

Windows：

到 ollama.com 下載 .exe 安裝檔，雙擊執行即可。

安裝完成後，Ollama 會自動啟動背景服務，預設監聽 localhost:11434。

步驟二：下載 Gemma 4 模型

# 推薦入門版本：E4B（約 3GB）
ollama pull gemma4:e4b

# 想要更強的推理能力：26B MoE（約 16GB）
ollama pull gemma4:26b

# 最輕量版本：E2B（約 1.5GB）
ollama pull gemma4:e2b

下載時間取決於你的網速。E4B 大約 3GB，100Mbps 的網路約 4 分鐘。26B 的 Q4 版本約 16GB，需要更長時間。

步驟三：開始對話

# 直接跑，進入互動式對話
ollama run gemma4:e4b

# 帶 thinking 模式（Gemma 4 支援可配置思考）
ollama run gemma4:e4b --verbose

你會看到一個互動式的聊天介面。輸入問題，模型就會回答。按 Ctrl+D 退出。

步驟四：用 API 串接你的應用

Ollama 內建 OpenAI 相容的 API server，你的程式碼幾乎不用改：

# 測試 API
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:e4b",
    "messages": [{"role": "user", "content": "用三句話解釋量子電腦"}]
  }'

# Python 範例（用 openai 套件）
from openai import OpenAI

client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
response = client.chat.completions.create(
    model="gemma4:e4b",
    messages=[{"role": "user", "content": "用三句話解釋量子電腦"}]
)
print(response.choices[0].message.content)

量化版本選擇

Ollama 預設下載的是 Q4_K_M 量化版本，這對大多數場景來說已經夠用。如果你想要更高品質：

# 指定量化版本
ollama pull gemma4:26b-q8_0    # 8-bit，品質更好但需要更多 VRAM
ollama pull gemma4:e4b-fp16    # 完整精度，需要 8.6GB VRAM

Ollama 的優點： 安裝最簡單、社群最大、API 相容性好、模型庫豐富。 Ollama 的缺點： 沒有 GUI、進階設定需要寫 Modelfile、不支援微調。

想把 Ollama 整合進你的產品？預約技術諮詢，我們有豐富的本地 LLM 整合經驗。

方法二：用 LM Studio 圖形化介面零門檻上手

LM Studio 圖形化介面——模型選擇與對話

不是每個人都喜歡在終端機裡打指令。如果你是 PM、設計師、或只是想快速體驗 Gemma 4 的非技術人員，LM Studio 是最好的選擇。

LM Studio 在 Gemma 4 發布當天就提供了支援，包括最新的 0.4.0 版本還引入了 lms CLI 和 llmster，讓進階使用者也能用命令列操作。

步驟一：下載安裝 LM Studio

到 lmstudio.ai 下載對應你作業系統的安裝檔。支援 macOS、Windows 和 Linux。

安裝過程跟裝一般桌面應用一樣——下一步、下一步、完成。

步驟二：搜尋並下載 Gemma 4 模型

打開 LM Studio
點左側的「Discover」標籤
搜尋欄輸入 gemma-4
你會看到 Unsloth 提供的各種量化版本（GGUF 格式）
根據你的記憶體選擇合適的版本，點「Download」

推薦選擇：

8GB RAM 機器 → gemma-4-E4B-it-GGUF (Q4_K_M)
16GB+ RAM 機器 → gemma-4-26B-A4B-it-GGUF (Q4_K_M)

步驟三：載入模型並設定參數

點左側的「Chat」標籤
上方的模型選擇器中選擇你剛下載的模型
右側面板可以調整參數：
- Context Length：預設 4096，Gemma 4 小模型支援到 128K
- Temperature：創意任務調高（0.7-1.0），精確任務調低（0.1-0.3）
- GPU Offload：有獨顯的話拉到最大值，把運算全丟給 GPU

步驟四：開始對話

直接在聊天框輸入問題就行。LM Studio 還支援：

多模態輸入：直接拖圖片進聊天框，Gemma 4 全系列都支援圖片理解
System Prompt：在設定面板中定義模型的角色和行為
對話紀錄：自動儲存，下次打開可以繼續

進階：用 LM Studio 當 API Server

LM Studio 也能當本地 API server，跟 Ollama 一樣提供 OpenAI 相容介面：

點左側的「Developer」標籤
選擇模型，點「Start Server」
預設地址是 http://localhost:1234/v1

curl http://localhost:1234/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma-4-e4b-it",
    "messages": [{"role": "user", "content": "Hello!"}]
  }'

LM Studio 的優點： 圖形化操作零門檻、模型瀏覽器方便搜尋和下載、支援多模態、可當 API server。 LM Studio 的缺點： 佔用系統資源比 Ollama 多（Electron 應用）、不支援微調、進階用戶可能覺得 GUI 多此一舉。

方法三：用 Unsloth 跑推理 + 準備微調環境

如果你的目標不只是「跑起來」，而是要做微調、量化、或在記憶體受限的環境下榨出最高效能，Unsloth 是正確的選擇。

Unsloth 在 Gemma 4 發布當天就提供了完整支援，包括預量化的 GGUF 和 MLX 格式模型。它的 MLX 版本在 Apple Silicon 上比 Ollama 節省約 40% 的記憶體，代價是推理速度慢 15-20%。

步驟一：安裝 Unsloth

# 建立虛擬環境（推薦）
python3 -m venv unsloth-env
source unsloth-env/bin/activate

# 安裝 Unsloth
pip install unsloth

如果你用 NVIDIA GPU，確保已安裝 CUDA toolkit。Unsloth 支援 CUDA 11.8+。

步驟二：用 Unsloth 跑推理

from unsloth import FastLanguageModel

# 載入模型（自動偵測最佳量化設定）
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="unsloth/gemma-4-E4B-it",
    max_seq_length=4096,
    load_in_4bit=True,  # 4-bit 量化
)

# 啟用推理模式
FastLanguageModel.for_inference(model)

# 準備輸入
messages = [{"role": "user", "content": "解釋 LoRA 微調的原理"}]
inputs = tokenizer.apply_chat_template(
    messages, tokenize=True, add_generation_prompt=True, return_tensors="pt"
).to("cuda")

# 生成回應
outputs = model.generate(input_ids=inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

步驟三：用 vLLM 做生產級推理

如果你要服務多個使用者，vLLM 的批次推理效能遠超單純的 Transformers 推理：

# 安裝 vLLM
pip install vllm

# 啟動 vLLM server
vllm serve unsloth/gemma-4-26B-A4B-it-GGUF \
  --quantization awq \
  --max-model-len 8192 \
  --gpu-memory-utilization 0.9

vLLM 的 continuous batching 和 PagedAttention 在處理多個同時請求時，吞吐量比簡單的推理方式高出 3-5 倍。

步驟四：從推理無縫轉微調

Unsloth 最大的優勢就在這裡——同一個框架，從推理到微調不需要切換工具：

from unsloth import FastLanguageModel
import torch

# 載入模型並準備 LoRA 微調
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="unsloth/gemma-4-E4B-it",
    max_seq_length=2048,
    load_in_4bit=True,
)

# 加上 LoRA adapter
model = FastLanguageModel.get_peft_model(
    model,
    r=16,
    lora_alpha=16,
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
)
# 接下來就可以開始訓練...

完整的微調教學請參考 Gemma 4 微調指南。

Unsloth 的優點： 記憶體效率最高、支援推理到微調的完整流程、MLX 優化讓 Mac 效能更好、社群活躍。 Unsloth 的缺點： 需要 Python 環境、設定比較複雜、不適合非技術使用者。

需要在生產環境部署 Gemma 4？聯繫我們的架構團隊，從推理伺服器到微調 pipeline 一站搞定。

三種方式怎麼選？決策比較表

比較項目	Ollama	LM Studio	Unsloth
上手難度	低（一行指令）	最低（圖形化）	中高（需 Python）
安裝時間	2 分鐘	3 分鐘	10-15 分鐘
記憶體效率	中	中	高（省 ~40%）
推理速度	快	快	中（MLX 慢 15-20%）
API 相容	OpenAI 相容	OpenAI 相容	需搭配 vLLM
GUI 介面	無	有	無
微調支援	不支援	不支援	原生支援
多模態	支援	支援（拖放圖片）	支援
適合對象	開發者、CLI 愛好者	非技術人員、快速體驗	ML 工程師、需要微調

我的建議：

「我只想快速試一下」 → LM Studio。下載、安裝、搜尋模型、開始聊天。五分鐘，不需要打任何指令。
「我要整合到我的應用裡」 → Ollama。API 最穩定、社群資源最多、Docker 部署也方便。
「我要微調或記憶體很吃緊」 → Unsloth。省 40% 記憶體不是開玩笑的，而且微調流程一條龍。

本地部署常見問題排除

OOM（Out of Memory）錯誤

這是最常見的問題。症狀通常是模型載入到一半就 crash，或推理到一半被 kill。

解法：

換更小的量化版本：從 Q8 換到 Q4_K_M，或從 Q4 換到 Q3_K_S
降低 context length：把 context window 從 128K 降到 8K 或 4K
關閉其他吃記憶體的程式：Chrome 是最大的兇手
增加 swap space：Linux 上可以暫時增加 swap，雖然會變慢但至少能跑

# 查看當前記憶體使用
nvidia-smi  # NVIDIA GPU
# 或
ollama ps   # 看 Ollama 載入了哪些模型

推理速度太慢

如果模型能跑但速度不理想（低於 10 tok/s），試試以下方法：

確認 GPU 有被使用：nvidia-smi 查看 GPU utilization，如果是 0% 代表模型跑在 CPU 上
在 Ollama 中增加 GPU layers：建立 Modelfile 設定 num_gpu 參數
用更激進的量化：Q4_K_S 比 Q4_K_M 快約 10-15%
Mac 使用者用 MLX 版本：比 llama.cpp 後端快 30-50%

模型下載失敗或中斷

# Ollama：重新下載會自動續傳
ollama pull gemma4:26b

# 手動下載 GGUF（適用 LM Studio 或手動部署）
# 從 Hugging Face 下載
huggingface-cli download unsloth/gemma-4-26B-A4B-it-GGUF \
  --include "gemma-4-26B-A4B-it-Q4_K_M.gguf"

如果 Hugging Face 下載速度太慢，可以用 hf_transfer 加速：

pip install hf_transfer
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download ...

模型輸出亂碼或品質異常

通常是量化版本的問題。Q2、Q3 的低位元量化在某些任務上品質下降明顯。解法是換 Q4_K_M 以上的版本，或者加上 system prompt 來穩定輸出格式。

部署過程遇到搞不定的問題？聯繫我們的技術支援，我們提供本地 AI 部署的全流程技術支援。

常見問題

Ollama 和 LM Studio 可以同時跑嗎？

可以，但不建議同時載入模型。兩個工具會各自佔用 VRAM，容易 OOM。如果你要同時用，確保一個工具的模型已經 unload。

Gemma 4 的 26B MoE 和 31B Dense，本地跑該選哪個？

26B MoE 幾乎在所有場景都是更好的選擇。它的啟動參數只有 3.8B（推理時不載入所有專家），所以速度快、記憶體效率高，而 benchmark 成績跟 31B Dense 非常接近。除非你有特定任務在 31B 上表現明顯更好，否則選 26B。

Mac 跑 Gemma 4 該用 Ollama 還是 Unsloth MLX？

看你的記憶體夠不夠。如果你的 Mac 有 24GB 以上統一記憶體，Ollama 夠用、速度也快。如果只有 16GB 想跑 26B，Unsloth 的 MLX 版本省 40% 記憶體可能是唯一的選擇。

本地跑的 Gemma 4 品質跟 API 版本一樣嗎？

BF16（完整精度）版本跟 API 版本品質相同。Q8 量化損失幾乎不可察覺。Q4 在大多數任務上品質也很好，但在數學推理和長文本生成上可能有 2-5% 的品質下降。

下一步

本地部署只是起點。你可能還想了解：

Gemma 4 完整指南：了解 Gemma 4 的完整模型家族和核心功能
Gemma 4 硬體需求完整對照：更詳細的硬體配置建議
Gemma 4 微調指南：用 Unsloth 和 LoRA 微調你的專屬模型

準備把 Gemma 4 導入你的企業流程？預約免費架構諮詢，從模型選型、硬體規劃到部署上線，我們提供端到端的技術支援。

需要專業的雲端建議？

無論您正在評估雲平台、優化現有架構，或尋找節費方案，我們都能提供協助

預約免費諮詢

AI 開發工具

Gemma 4 本地部署教學：Ollama、LM Studio、Unsloth 三種方式完整攻略

為什麼要在本地跑 Gemma 4？三個理由

理由一：資料隱私與合規

理由二：離線可用

理由三：零 API 成本

部署前準備：確認你的硬體能跑哪個版本

方法一：用 Ollama 五分鐘跑起來

步驟一：安裝 Ollama

步驟二：下載 Gemma 4 模型

步驟三：開始對話

步驟四：用 API 串接你的應用

量化版本選擇

方法二：用 LM Studio 圖形化介面零門檻上手

步驟一：下載安裝 LM Studio

步驟二：搜尋並下載 Gemma 4 模型

步驟三：載入模型並設定參數

步驟四：開始對話

進階：用 LM Studio 當 API Server

方法三：用 Unsloth 跑推理 + 準備微調環境

步驟一：安裝 Unsloth

步驟二：用 Unsloth 跑推理

步驟三：用 vLLM 做生產級推理

步驟四：從推理無縫轉微調

三種方式怎麼選？決策比較表

本地部署常見問題排除

OOM（Out of Memory）錯誤

推理速度太慢

模型下載失敗或中斷

模型輸出亂碼或品質異常

常見問題

Ollama 和 LM Studio 可以同時跑嗎？

Gemma 4 的 26B MoE 和 31B Dense，本地跑該選哪個？

Mac 跑 Gemma 4 該用 Ollama 還是 Unsloth MLX？

本地跑的 Gemma 4 品質跟 API 版本一樣嗎？

下一步

需要專業的雲端建議？

相關文章

Gemma 4 31B 在 Mac 上怎麼跑？Apple Silicon 完整部署指南

Gemma 4 硬體需求完整對照：從手機到 H100，選對配備不踩雷

Gemma 4 API 串接教學：Vertex AI 與 Google AI Studio 實戰