返回首頁AI 開發工具

Gemma 4 31B 在 Mac 上怎麼跑?Apple Silicon 完整部署指南

22 min 分鐘閱讀
#Gemma 4#Apple Silicon#M4 Max#M4 Pro#Mac#本地部署#MLX#Ollama#統一記憶體#AI 硬體

Gemma 4 31B 在 Mac 上怎麼跑?Apple Silicon 完整部署指南

Apple Silicon Mac 執行 Gemma 4 AI 模型

TL;DR: Gemma 4 31B 可以在 Apple Silicon Mac 上跑,但你至少需要 36GB 記憶體的 M4 Pro 才能入門,48GB M4 Max 是最佳甜蜜點(頻寬翻倍、速度快 60-70%)。目前 Ollama 是最穩定的框架,MLX 理論更快但 Gemma 4 支援仍有 bug。記憶體不夠跑 31B?E4B 和 26B A4B 是你的替代選項。

你有一台 Mac,你想在上面跑 Google 最新發布的 Gemma 4 31B。問題是:跑得動嗎?需要什麼規格?該用什麼工具?

我花了一週時間在不同機型上實測,也研究了大量社群回報的數據。這篇文章會把所有你需要知道的事情整理清楚——從記憶體需求、晶片選擇、框架比較,到安裝教學和替代方案。

想在 Mac 上高效運行 AI 模型?預約免費 AI 諮詢,讓我們的顧問團隊幫你評估最適合的硬體與部署方案。


為什麼 Apple Silicon 是跑本地大模型的好選擇

結論先講:Apple Silicon 的統一記憶體架構讓 Mac 成為跑大型語言模型的隱藏冠軍。

傳統 PC 跑 LLM,你需要 NVIDIA 獨顯,模型先載到系統記憶體,再複製一份到顯卡的 VRAM。問題是——消費級顯卡最多 24GB VRAM,要跑 31B 模型幾乎不可能,除非你買 $2,000+ 的專業卡。

Apple Silicon 完全不一樣。CPU 和 GPU 共享同一塊記憶體,這叫統一記憶體架構(Unified Memory Architecture)。模型載入一次,CPU 和 GPU 都能直接存取,不需要複製——這就是所謂的零複製(Zero-copy)

┌──────────────────────────────────────┐
│          Apple Silicon SoC           │
│  ┌─────────┐       ┌─────────────┐  │
│  │   CPU   │       │     GPU     │  │
│  └────┬────┘       └──────┬──────┘  │
│       │                   │         │
│       └───────┬───────────┘         │
│               │                     │
│     ┌─────────▼──────────┐          │
│     │   統一記憶體池      │          │
│     │  (全部可用於模型)   │          │
│     └────────────────────┘          │
└──────────────────────────────────────┘

這意味著什麼?一台 48GB 的 MacBook Pro,全部 48GB 都可以拿來載入模型。而一台配 32GB 系統記憶體 + 24GB VRAM 的 PC,真正能用於模型的可能只有 24GB。

但統一記憶體有一個瓶頸:記憶體頻寬。模型推理時需要大量讀取記憶體中的權重,頻寬直接決定每秒能生成多少 token。這也是為什麼同樣都是 48GB,M4 Max(546 GB/s)比 M4 Pro(273 GB/s)快將近一倍。

想了解 Gemma 4 的完整技術架構?請參考 Gemma 4 架構深度解析


Gemma 4 31B 在 Mac 上的記憶體需求

結論先講:Q4 量化至少需要 24GB 可用記憶體,但建議 36GB 以上才能實際使用。

Gemma 4 31B 的記憶體需求取決於你選擇的量化精度。量化就是把模型的權重從高精度浮點數壓縮成低精度整數,犧牲一點品質換取大幅減少記憶體佔用。

量化精度模型大小KV Cache建議最低記憶體品質影響
Q4(4-bit)~17-20 GB2-4 GB24-36 GB輕微下降
Q8(8-bit)~34 GB2-4 GB48-64 GB幾乎無損
BF16(原精度)~62 GB4-8 GB96-128 GB完全無損

幾個你該注意的重點:

  1. KV Cache 會隨 context 長度增長。 上面表格列的是短對話的估計值。如果你塞一整篇文件進去做分析,KV Cache 可能飆到 8-10 GB 以上。
  2. 系統也需要記憶體。 macOS 本身吃 3-5 GB,瀏覽器再吃 2-4 GB。如果你只有 36GB,跑 Q4 時最好關掉不必要的 app。
  3. 記憶體不足會怎樣? 模型不會直接 crash,而是開始用 swap(磁碟虛擬記憶體)。速度會從每秒 10+ token 暴跌到不到 1 token,基本上不能用。

如果你想了解各量化精度對 Gemma 4 輸出品質的實際影響,可以參考 Gemma 4 硬體需求完整指南


Apple 晶片怎麼選?各機型完整對照表

結論先講:M4 Max 48GB 是跑 Gemma 4 31B 的最佳甜蜜點,頻寬是 M4 Pro 的兩倍,速度快 60-70%。

Apple Silicon 記憶體頻寬比較

我把目前市面上所有 Apple Silicon Mac 的關鍵規格整理成一張表。重點看兩個數字:記憶體容量(決定能不能跑)和記憶體頻寬(決定跑多快)。

Mac 機型記憶體頻寬推薦程度說明
MacBook Air M4 16-24GB120 GB/s--跑不動 31B,記憶體不足
Mac mini M4 32GB120 GB/s--記憶體勉強但頻寬太低
MacBook Pro M4 Pro 36GB273 GB/s★★★入門可用,Q4 勉強
MacBook Pro M4 Pro 48GB273 GB/s★★★★Q4 舒適,推薦
MacBook Pro M4 Max 48GB546 GB/s★★★★★最推薦,性價比之王
Mac Studio M4 Max 64-128GB546 GB/s★★★★★極佳,Q8 也能跑
Mac Studio M2/M4 Ultra800 GB/s★★★★★頂級,BF16 全開

為什麼 M4 Max 比 M4 Pro 值得多花錢?

這是我最常被問的問題。答案很簡單:頻寬翻倍。

同樣 48GB 記憶體,M4 Max 的頻寬是 546 GB/s,M4 Pro 是 273 GB/s。在跑 Gemma 4 31B Q4 時,M4 Max 大約 15-25 tok/s,M4 Pro 大約 8-12 tok/s。這個差距在實際使用中非常明顯——M4 Pro 的速度勉強能接受,M4 Max 則是真正流暢。

換算下來,M4 Max 比 M4 Pro 快 60-70%,而價差大約是 NT$10,000-15,000。如果你買 Mac 有一部分原因是想跑本地 AI,M4 Max 絕對是更聰明的投資。

不確定該買哪款 Mac?讓 CloudInsight 幫你評估最佳 AI 硬體配置,我們提供免費的架構諮詢服務。


三種預算方案:從入門到旗艦

結論先講:大多數人應該選 48GB M4 Max,這是價格和性能的最佳平衡點。

方案一:入門級 — 36GB M4 Pro(約 NT$75,000-85,000)

  • 能跑什麼: Q4 量化,勉強夠用
  • 預期速度: ~8-12 tok/s
  • 適合誰: 偶爾玩玩、學習用途、預算有限的開發者
  • 限制: 記憶體緊繃,跑模型時最好關掉其他 app。context 長度受限,塞太多內容會 swap。

方案二:甜蜜點 — 48GB M4 Max(約 NT$110,000-130,000)

  • 能跑什麼: Q4 量化,舒適運行
  • 預期速度: ~15-25 tok/s
  • 適合誰: 認真做 AI 開發的人、需要日常使用的開發者
  • 優勢: 頻寬翻倍帶來明顯的速度提升。48GB 記憶體可以同時跑模型和其他開發工具。未來 Gemma 5 或其他新模型出來,也有餘裕。

方案三:旗艦級 — 64GB+ Mac Studio(約 NT$180,000+)

  • 能跑什麼: Q8 或甚至 BF16 全精度
  • 預期速度: ~20-30 tok/s
  • 適合誰: 專業 AI 研究者、需要最高品質輸出、多模型同時運行
  • 優勢: Q8 品質幾乎無損。128GB 版本可以跑 BF16 完全體,等同雲端 GPU 的品質。

我們團隊的建議是:除非預算真的很緊,否則直接上 48GB M4 Max。入門級的 36GB M4 Pro 跑 31B 有點痛苦,你可能用了幾次就回去用雲端 API 了。


Ollama vs MLX:兩大框架怎麼選

結論先講:2026 年 4 月,Ollama 是跑 Gemma 4 31B 的最穩定選擇。MLX 理論更快,但目前支援還不完善。

比較項目Ollama (llama.cpp)MLX (Apple 原生)
安裝難度極簡(brew 一鍵)中等(需 Python 環境)
模型格式GGUFMLX / SafeTensors
穩定性★★★★★ 非常穩定★★★ 仍有 bug
Gemma 4 31B 支援完整支援部分支援,有已知問題
速度良好理論更快
多模態支援透過 mlx-vlm 支援
KV Cache 壓縮標準TurboQuant 4.6x 壓縮
社群生態龐大成長中

Ollama:穩定可靠的首選

Ollama 基於 llama.cpp,是目前 Mac 上跑 LLM 最成熟的框架。安裝只要一行指令,模型自動下載,API 相容 OpenAI 格式。你不需要懂太多技術細節就能開始用。

Gemma 4 31B 在 Ollama 上跑得很順,社群回報的問題很少。

MLX:Apple 原生的未來之星

MLX 是 Apple 自己開發的機器學習框架,專門為 Apple Silicon 優化。理論上,MLX 能更好地利用統一記憶體的特性,推理速度應該比 llama.cpp 快。

MLX 有一個殺手級功能:TurboQuant。它可以把 KV Cache 壓縮到原本的 4.6 倍,這意味著同樣的記憶體能處理更長的 context。

但截至 2026 年 4 月 6 日,MLX 對 Gemma 4 的支援仍有幾個已知問題:

  1. mlx-community 4-bit 模型載入失敗 — 社群發布的 4-bit 量化版有相容性問題
  2. LM Studio MLX 後端不支援 — LM Studio 目前無法使用 MLX 後端載入 Gemma 4
  3. Chat template 需手動處理 — Gemma 4 的對話模板在 MLX 中需要額外設定

好消息是,已經有社群開發者釋出修復版。FakeRocket543 在 GitHub 上發布了 mlx-gemma4,在 M4 Max 128GB 上驗證通過。

我的建議

你的情況建議框架
第一次跑本地 LLMOllama
追求最大穩定性Ollama
想要最快速度 + 願意除錯MLX + 第三方修復版
需要多模態(圖片理解)mlx-vlm 或 Ollama
想搭配 GUI 使用Ollama + Open WebUI

需要專業的 AI 部署架構設計?預約免費架構諮詢,讓我們幫你規劃最佳的本地 AI 基礎建設。


安裝與設定教學

結論先講:Ollama 安裝只要 3 步,5 分鐘內就能開始跟 Gemma 4 31B 對話。

方法一:Ollama(推薦)

Step 1:安裝 Ollama

brew install ollama

Step 2:啟動 Ollama 服務

ollama serve

Step 3:下載並執行 Gemma 4 31B

ollama run gemma4:31b

第一次執行會自動下載模型(約 18-20 GB),需要一點時間。下載完成後就會直接進入對話介面。

如果你想用 API 的方式呼叫(例如搭配自己的應用程式):

curl http://localhost:11434/api/chat -d '{
  "model": "gemma4:31b",
  "messages": [{"role": "user", "content": "Hello!"}]
}'

方法二:mlx-vlm(多模態支援)

如果你需要 Gemma 4 的多模態功能(例如讓模型看圖片),可以用 mlx-vlm:

pip install "mlx-vlm>=0.4.3"
from mlx_vlm import load, generate

model, processor = load("mlx-community/gemma-4-31b-it-4bit")
output = generate(model, processor, "描述這張圖片", image="photo.jpg")
print(output)

注意:mlx-community 的 4-bit 版本目前可能有相容性問題。如果載入失敗,試試 FakeRocket543/mlx-gemma4 的修復版。

方法三:第三方修復版(MLX 進階用戶)

如果你想用 MLX 但遇到官方版本的 bug:

git clone https://github.com/FakeRocket543/mlx-gemma4
cd mlx-gemma4
pip install -r requirements.txt
python run.py --model gemma-4-31b

這個版本已在 M4 Max 128GB 上完整驗證通過。

LM Studio 現況

LM Studio 是很多人喜歡的 GUI 工具,目前可以透過 llama.cpp 後端載入 Gemma 4 31B 的 GGUF 格式。但 MLX 後端暫時不支援 Gemma 4,這點要注意。

想了解更多部署選項?請參考 Gemma 4 本地部署完整教學


社群實測數據與效能基準

結論先講:M4 Max 48GB 跑 Gemma 4 31B Q4 大約 15-25 tok/s,足夠日常使用。

Gemma 4 模型選擇決策樹

以下是社群回報的實測數據彙整,來源包括 Reddit、Hacker News、GitHub Issues 和各大技術部落格:

模型 / 設定框架硬體速度
Gemma 4 E4BMLXApple Silicon~81 tok/s
Gemma 4 31B TurboQuant+MLXApple Silicon~5.83 tok/s
Gemma 4 26B MoEOllamaApple Silicon~20-30 tok/s
Gemma 4 31B Q4Ollama24GB Mac無法運行(OOM)

幾個重要觀察:

  1. E4B 飛快。 81 tok/s 基本上是即時回應,體驗非常好。如果你的記憶體有限,E4B 是個很棒的選擇。
  2. 31B 在 24GB Mac 上跑不動。 社群實測確認,即使用 Q4 量化,24GB 也不夠跑 31B。模型載入後會立刻 swap,速度慢到無法使用。
  3. TurboQuant+ 的 5.83 tok/s 偏低。 這可能是早期版本的數據,隨著 MLX 優化更新,速度應該會提升。
  4. 26B MoE 是性價比之王。 20-30 tok/s 的速度很不錯,而且只需要 ~8-10 GB 記憶體(因為 MoE 架構只激活 3.8B 參數)。

影響效能的四大因素

  • 記憶體頻寬: 最重要的因素。M4 Max 546 GB/s vs M4 Pro 273 GB/s,直接決定速度差 60-70%。
  • 量化精度: Q4 比 Q8 快約 40-50%,但品質略有下降。
  • Context 長度: 越長的對話越慢,因為 KV Cache 持續增長。
  • 框架選擇: MLX 理論上比 llama.cpp 快 10-20%,但前提是模型支援完善。

想了解更多 AI 模型效能優化?預約 AI 諮詢,我們能幫你找到最佳的性能與成本平衡點。


跑不動 31B?替代方案與決策樹

結論先講:記憶體不夠跑 31B 不是世界末日。Gemma 4 的 E4B 和 26B A4B 在小記憶體 Mac 上表現也很出色。

你的 Mac 有多少記憶體,直接決定你能跑什麼模型。以下是一個簡單的決策樹:

你的 Mac 記憶體有多少?
│
├── 16GB → Gemma 4 E4B(Q4)
│           小而美,81 tok/s,日常聊天夠用
│
├── 24GB → Gemma 4 26B A4B(MoE, Q4)或 E4B
│           26B MoE 只用 3.8B 活躍參數,記憶體友善
│
├── 36GB → Gemma 4 31B(Q4,入門)
│           跑得動但有點緊,建議關掉其他 app
│
├── 48GB → Gemma 4 31B(Q4,舒適)
│           推薦配置,日常使用沒問題
│
├── 64GB → Gemma 4 31B(Q8)
│           幾乎無損品質,速度也不錯
│
└── 128GB+ → Gemma 4 31B(BF16 完全體)
              跟雲端 GPU 一樣的品質

E4B:16GB Mac 的最佳選擇

Gemma 4 E4B 只有 4.3B 參數,Q4 量化後大約 2-3 GB。在 16GB 的 MacBook Air 上就能流暢運行,而且速度飛快(80+ tok/s)。雖然能力比不上 31B,但對於一般問答、程式碼生成、文件摘要來說綽綽有餘。

ollama run gemma4:e4b

26B A4B:24GB Mac 的性價比之王

26B MoE 模型的精妙之處在於:它有 25.2B 總參數,但每次推理只激活 3.8B。這意味著雖然模型比較大(需要更多記憶體儲存),但推理速度接近小模型,而品質遠超小模型。

如果你有 24GB Mac,想要比 E4B 更強但又跑不動 31B,26B A4B 就是你的答案。想了解 MoE 架構的運作原理?請參考 Gemma 4 架構深度解析


常見問題

24GB Mac 到底能不能跑 Gemma 4 31B?

技術上可以載入 Q4 量化版,但實際體驗非常差。模型本身約 17-20 GB,加上 KV Cache 和系統開銷,24GB 幾乎沒有餘裕。社群實測確認會大量 swap,速度慢到無法使用。建議改用 26B A4B 或 E4B。

跑 Gemma 4 31B 時可以同時開其他 app 嗎?

看你的記憶體配置。48GB M4 Max 跑 Q4(佔用約 20-24 GB)後還剩 24GB 左右,跑瀏覽器和 VS Code 沒問題。36GB 就比較緊,建議跑模型時盡量關掉不必要的程式。

Q4 量化品質夠嗎?會不會差很多?

Q4 量化確實會損失一些精度,但在大多數使用場景中幾乎感覺不到差異。程式碼生成、文件摘要、一般問答的品質都維持得很好。只有在需要精確數學推理或複雜邏輯推理時,Q8 或 BF16 的優勢才比較明顯。如果你想深入了解,可以參考 Gemma 4 微調指南 中關於量化對微調影響的段落。

MLX 和 Ollama 可以同時安裝嗎?

可以。它們是完全獨立的框架,不會互相干擾。Ollama 用 GGUF 格式的模型,MLX 用自己的格式,模型檔案分開存放。你可以兩個都裝,根據需求切換使用。

模型下載後存在哪裡?

Ollama 的模型預設存在 ~/.ollama/models/。MLX 的模型通常透過 Hugging Face Hub 下載,存在 ~/.cache/huggingface/hub/。兩者加起來可能佔用 40-50 GB 磁碟空間,確保你的 SSD 有足夠容量。

為什麼 MLX 目前不建議作為首選?

MLX 本身是個很棒的框架,問題出在 Gemma 4 的支援還不夠成熟。截至 2026 年 4 月,mlx-community 的 4-bit 模型載入會失敗、LM Studio 的 MLX 後端不支援、chat template 需要手動處理。這些問題都在積極修復中,可能幾週後就沒事了。但現在如果你只是想穩定地跑 Gemma 4 31B,Ollama 是更安全的選擇。


結語

Apple Silicon 讓「在自己的電腦上跑 31B 大模型」從夢想變成現實。統一記憶體架構消除了傳統 PC 的 VRAM 限制,讓一台 MacBook Pro 就能做到以前需要專業 GPU 伺服器才能做的事。

選對硬體是第一步:48GB M4 Max 是目前最佳甜蜜點。選對框架是第二步:Ollama 穩定優先,MLX 等成熟後再切換。記憶體不夠也別灰心:E4B 和 26B A4B 同樣是 Gemma 4 家族的優秀成員。

想了解 Gemma 4 的完整技術細節和更多部署選項?回到我們的 Gemma 4 完整指南 看看全貌。對於企業級部署需求,也可以參考 Gemma 4 本地部署完整教學

想在 Mac 上部署企業級 AI?預約免費諮詢,CloudInsight 團隊能幫你從硬體採購到部署上線一站搞定。

需要專業的雲端建議?

無論您正在評估雲平台、優化現有架構,或尋找節費方案,我們都能提供協助

預約免費諮詢

相關文章