Gemma 4 31B 在 Mac 上怎麼跑?Apple Silicon 完整部署指南
Gemma 4 31B 在 Mac 上怎麼跑?Apple Silicon 完整部署指南
![]()
TL;DR: Gemma 4 31B 可以在 Apple Silicon Mac 上跑,但你至少需要 36GB 記憶體的 M4 Pro 才能入門,48GB M4 Max 是最佳甜蜜點(頻寬翻倍、速度快 60-70%)。目前 Ollama 是最穩定的框架,MLX 理論更快但 Gemma 4 支援仍有 bug。記憶體不夠跑 31B?E4B 和 26B A4B 是你的替代選項。
你有一台 Mac,你想在上面跑 Google 最新發布的 Gemma 4 31B。問題是:跑得動嗎?需要什麼規格?該用什麼工具?
我花了一週時間在不同機型上實測,也研究了大量社群回報的數據。這篇文章會把所有你需要知道的事情整理清楚——從記憶體需求、晶片選擇、框架比較,到安裝教學和替代方案。
想在 Mac 上高效運行 AI 模型?預約免費 AI 諮詢,讓我們的顧問團隊幫你評估最適合的硬體與部署方案。
為什麼 Apple Silicon 是跑本地大模型的好選擇
結論先講:Apple Silicon 的統一記憶體架構讓 Mac 成為跑大型語言模型的隱藏冠軍。
傳統 PC 跑 LLM,你需要 NVIDIA 獨顯,模型先載到系統記憶體,再複製一份到顯卡的 VRAM。問題是——消費級顯卡最多 24GB VRAM,要跑 31B 模型幾乎不可能,除非你買 $2,000+ 的專業卡。
Apple Silicon 完全不一樣。CPU 和 GPU 共享同一塊記憶體,這叫統一記憶體架構(Unified Memory Architecture)。模型載入一次,CPU 和 GPU 都能直接存取,不需要複製——這就是所謂的零複製(Zero-copy)。
┌──────────────────────────────────────┐
│ Apple Silicon SoC │
│ ┌─────────┐ ┌─────────────┐ │
│ │ CPU │ │ GPU │ │
│ └────┬────┘ └──────┬──────┘ │
│ │ │ │
│ └───────┬───────────┘ │
│ │ │
│ ┌─────────▼──────────┐ │
│ │ 統一記憶體池 │ │
│ │ (全部可用於模型) │ │
│ └────────────────────┘ │
└──────────────────────────────────────┘
這意味著什麼?一台 48GB 的 MacBook Pro,全部 48GB 都可以拿來載入模型。而一台配 32GB 系統記憶體 + 24GB VRAM 的 PC,真正能用於模型的可能只有 24GB。
但統一記憶體有一個瓶頸:記憶體頻寬。模型推理時需要大量讀取記憶體中的權重,頻寬直接決定每秒能生成多少 token。這也是為什麼同樣都是 48GB,M4 Max(546 GB/s)比 M4 Pro(273 GB/s)快將近一倍。
想了解 Gemma 4 的完整技術架構?請參考 Gemma 4 架構深度解析。
Gemma 4 31B 在 Mac 上的記憶體需求
結論先講:Q4 量化至少需要 24GB 可用記憶體,但建議 36GB 以上才能實際使用。
Gemma 4 31B 的記憶體需求取決於你選擇的量化精度。量化就是把模型的權重從高精度浮點數壓縮成低精度整數,犧牲一點品質換取大幅減少記憶體佔用。
| 量化精度 | 模型大小 | KV Cache | 建議最低記憶體 | 品質影響 |
|---|---|---|---|---|
| Q4(4-bit) | ~17-20 GB | 2-4 GB | 24-36 GB | 輕微下降 |
| Q8(8-bit) | ~34 GB | 2-4 GB | 48-64 GB | 幾乎無損 |
| BF16(原精度) | ~62 GB | 4-8 GB | 96-128 GB | 完全無損 |
幾個你該注意的重點:
- KV Cache 會隨 context 長度增長。 上面表格列的是短對話的估計值。如果你塞一整篇文件進去做分析,KV Cache 可能飆到 8-10 GB 以上。
- 系統也需要記憶體。 macOS 本身吃 3-5 GB,瀏覽器再吃 2-4 GB。如果你只有 36GB,跑 Q4 時最好關掉不必要的 app。
- 記憶體不足會怎樣? 模型不會直接 crash,而是開始用 swap(磁碟虛擬記憶體)。速度會從每秒 10+ token 暴跌到不到 1 token,基本上不能用。
如果你想了解各量化精度對 Gemma 4 輸出品質的實際影響,可以參考 Gemma 4 硬體需求完整指南。
Apple 晶片怎麼選?各機型完整對照表
結論先講:M4 Max 48GB 是跑 Gemma 4 31B 的最佳甜蜜點,頻寬是 M4 Pro 的兩倍,速度快 60-70%。
![]()
我把目前市面上所有 Apple Silicon Mac 的關鍵規格整理成一張表。重點看兩個數字:記憶體容量(決定能不能跑)和記憶體頻寬(決定跑多快)。
| Mac 機型 | 記憶體 | 頻寬 | 推薦程度 | 說明 |
|---|---|---|---|---|
| MacBook Air M4 16-24GB | 120 GB/s | -- | 跑不動 31B,記憶體不足 | |
| Mac mini M4 32GB | 120 GB/s | -- | 記憶體勉強但頻寬太低 | |
| MacBook Pro M4 Pro 36GB | 273 GB/s | ★★★ | 入門可用,Q4 勉強 | |
| MacBook Pro M4 Pro 48GB | 273 GB/s | ★★★★ | Q4 舒適,推薦 | |
| MacBook Pro M4 Max 48GB | 546 GB/s | ★★★★★ | 最推薦,性價比之王 | |
| Mac Studio M4 Max 64-128GB | 546 GB/s | ★★★★★ | 極佳,Q8 也能跑 | |
| Mac Studio M2/M4 Ultra | 800 GB/s | ★★★★★ | 頂級,BF16 全開 |
為什麼 M4 Max 比 M4 Pro 值得多花錢?
這是我最常被問的問題。答案很簡單:頻寬翻倍。
同樣 48GB 記憶體,M4 Max 的頻寬是 546 GB/s,M4 Pro 是 273 GB/s。在跑 Gemma 4 31B Q4 時,M4 Max 大約 15-25 tok/s,M4 Pro 大約 8-12 tok/s。這個差距在實際使用中非常明顯——M4 Pro 的速度勉強能接受,M4 Max 則是真正流暢。
換算下來,M4 Max 比 M4 Pro 快 60-70%,而價差大約是 NT$10,000-15,000。如果你買 Mac 有一部分原因是想跑本地 AI,M4 Max 絕對是更聰明的投資。
不確定該買哪款 Mac?讓 CloudInsight 幫你評估最佳 AI 硬體配置,我們提供免費的架構諮詢服務。
三種預算方案:從入門到旗艦
結論先講:大多數人應該選 48GB M4 Max,這是價格和性能的最佳平衡點。
方案一:入門級 — 36GB M4 Pro(約 NT$75,000-85,000)
- 能跑什麼: Q4 量化,勉強夠用
- 預期速度: ~8-12 tok/s
- 適合誰: 偶爾玩玩、學習用途、預算有限的開發者
- 限制: 記憶體緊繃,跑模型時最好關掉其他 app。context 長度受限,塞太多內容會 swap。
方案二:甜蜜點 — 48GB M4 Max(約 NT$110,000-130,000)
- 能跑什麼: Q4 量化,舒適運行
- 預期速度: ~15-25 tok/s
- 適合誰: 認真做 AI 開發的人、需要日常使用的開發者
- 優勢: 頻寬翻倍帶來明顯的速度提升。48GB 記憶體可以同時跑模型和其他開發工具。未來 Gemma 5 或其他新模型出來,也有餘裕。
方案三:旗艦級 — 64GB+ Mac Studio(約 NT$180,000+)
- 能跑什麼: Q8 或甚至 BF16 全精度
- 預期速度: ~20-30 tok/s
- 適合誰: 專業 AI 研究者、需要最高品質輸出、多模型同時運行
- 優勢: Q8 品質幾乎無損。128GB 版本可以跑 BF16 完全體,等同雲端 GPU 的品質。
我們團隊的建議是:除非預算真的很緊,否則直接上 48GB M4 Max。入門級的 36GB M4 Pro 跑 31B 有點痛苦,你可能用了幾次就回去用雲端 API 了。
Ollama vs MLX:兩大框架怎麼選
結論先講:2026 年 4 月,Ollama 是跑 Gemma 4 31B 的最穩定選擇。MLX 理論更快,但目前支援還不完善。
| 比較項目 | Ollama (llama.cpp) | MLX (Apple 原生) |
|---|---|---|
| 安裝難度 | 極簡(brew 一鍵) | 中等(需 Python 環境) |
| 模型格式 | GGUF | MLX / SafeTensors |
| 穩定性 | ★★★★★ 非常穩定 | ★★★ 仍有 bug |
| Gemma 4 31B 支援 | 完整支援 | 部分支援,有已知問題 |
| 速度 | 良好 | 理論更快 |
| 多模態 | 支援 | 透過 mlx-vlm 支援 |
| KV Cache 壓縮 | 標準 | TurboQuant 4.6x 壓縮 |
| 社群生態 | 龐大 | 成長中 |
Ollama:穩定可靠的首選
Ollama 基於 llama.cpp,是目前 Mac 上跑 LLM 最成熟的框架。安裝只要一行指令,模型自動下載,API 相容 OpenAI 格式。你不需要懂太多技術細節就能開始用。
Gemma 4 31B 在 Ollama 上跑得很順,社群回報的問題很少。
MLX:Apple 原生的未來之星
MLX 是 Apple 自己開發的機器學習框架,專門為 Apple Silicon 優化。理論上,MLX 能更好地利用統一記憶體的特性,推理速度應該比 llama.cpp 快。
MLX 有一個殺手級功能:TurboQuant。它可以把 KV Cache 壓縮到原本的 4.6 倍,這意味著同樣的記憶體能處理更長的 context。
但截至 2026 年 4 月 6 日,MLX 對 Gemma 4 的支援仍有幾個已知問題:
- mlx-community 4-bit 模型載入失敗 — 社群發布的 4-bit 量化版有相容性問題
- LM Studio MLX 後端不支援 — LM Studio 目前無法使用 MLX 後端載入 Gemma 4
- Chat template 需手動處理 — Gemma 4 的對話模板在 MLX 中需要額外設定
好消息是,已經有社群開發者釋出修復版。FakeRocket543 在 GitHub 上發布了 mlx-gemma4,在 M4 Max 128GB 上驗證通過。
我的建議
| 你的情況 | 建議框架 |
|---|---|
| 第一次跑本地 LLM | Ollama |
| 追求最大穩定性 | Ollama |
| 想要最快速度 + 願意除錯 | MLX + 第三方修復版 |
| 需要多模態(圖片理解) | mlx-vlm 或 Ollama |
| 想搭配 GUI 使用 | Ollama + Open WebUI |
需要專業的 AI 部署架構設計?預約免費架構諮詢,讓我們幫你規劃最佳的本地 AI 基礎建設。
安裝與設定教學
結論先講:Ollama 安裝只要 3 步,5 分鐘內就能開始跟 Gemma 4 31B 對話。
方法一:Ollama(推薦)
Step 1:安裝 Ollama
brew install ollama
Step 2:啟動 Ollama 服務
ollama serve
Step 3:下載並執行 Gemma 4 31B
ollama run gemma4:31b
第一次執行會自動下載模型(約 18-20 GB),需要一點時間。下載完成後就會直接進入對話介面。
如果你想用 API 的方式呼叫(例如搭配自己的應用程式):
curl http://localhost:11434/api/chat -d '{
"model": "gemma4:31b",
"messages": [{"role": "user", "content": "Hello!"}]
}'
方法二:mlx-vlm(多模態支援)
如果你需要 Gemma 4 的多模態功能(例如讓模型看圖片),可以用 mlx-vlm:
pip install "mlx-vlm>=0.4.3"
from mlx_vlm import load, generate
model, processor = load("mlx-community/gemma-4-31b-it-4bit")
output = generate(model, processor, "描述這張圖片", image="photo.jpg")
print(output)
注意:mlx-community 的 4-bit 版本目前可能有相容性問題。如果載入失敗,試試 FakeRocket543/mlx-gemma4 的修復版。
方法三:第三方修復版(MLX 進階用戶)
如果你想用 MLX 但遇到官方版本的 bug:
git clone https://github.com/FakeRocket543/mlx-gemma4
cd mlx-gemma4
pip install -r requirements.txt
python run.py --model gemma-4-31b
這個版本已在 M4 Max 128GB 上完整驗證通過。
LM Studio 現況
LM Studio 是很多人喜歡的 GUI 工具,目前可以透過 llama.cpp 後端載入 Gemma 4 31B 的 GGUF 格式。但 MLX 後端暫時不支援 Gemma 4,這點要注意。
想了解更多部署選項?請參考 Gemma 4 本地部署完整教學。
社群實測數據與效能基準
結論先講:M4 Max 48GB 跑 Gemma 4 31B Q4 大約 15-25 tok/s,足夠日常使用。
![]()
以下是社群回報的實測數據彙整,來源包括 Reddit、Hacker News、GitHub Issues 和各大技術部落格:
| 模型 / 設定 | 框架 | 硬體 | 速度 |
|---|---|---|---|
| Gemma 4 E4B | MLX | Apple Silicon | ~81 tok/s |
| Gemma 4 31B TurboQuant+ | MLX | Apple Silicon | ~5.83 tok/s |
| Gemma 4 26B MoE | Ollama | Apple Silicon | ~20-30 tok/s |
| Gemma 4 31B Q4 | Ollama | 24GB Mac | 無法運行(OOM) |
幾個重要觀察:
- E4B 飛快。 81 tok/s 基本上是即時回應,體驗非常好。如果你的記憶體有限,E4B 是個很棒的選擇。
- 31B 在 24GB Mac 上跑不動。 社群實測確認,即使用 Q4 量化,24GB 也不夠跑 31B。模型載入後會立刻 swap,速度慢到無法使用。
- TurboQuant+ 的 5.83 tok/s 偏低。 這可能是早期版本的數據,隨著 MLX 優化更新,速度應該會提升。
- 26B MoE 是性價比之王。 20-30 tok/s 的速度很不錯,而且只需要 ~8-10 GB 記憶體(因為 MoE 架構只激活 3.8B 參數)。
影響效能的四大因素
- 記憶體頻寬: 最重要的因素。M4 Max 546 GB/s vs M4 Pro 273 GB/s,直接決定速度差 60-70%。
- 量化精度: Q4 比 Q8 快約 40-50%,但品質略有下降。
- Context 長度: 越長的對話越慢,因為 KV Cache 持續增長。
- 框架選擇: MLX 理論上比 llama.cpp 快 10-20%,但前提是模型支援完善。
想了解更多 AI 模型效能優化?預約 AI 諮詢,我們能幫你找到最佳的性能與成本平衡點。
跑不動 31B?替代方案與決策樹
結論先講:記憶體不夠跑 31B 不是世界末日。Gemma 4 的 E4B 和 26B A4B 在小記憶體 Mac 上表現也很出色。
你的 Mac 有多少記憶體,直接決定你能跑什麼模型。以下是一個簡單的決策樹:
你的 Mac 記憶體有多少?
│
├── 16GB → Gemma 4 E4B(Q4)
│ 小而美,81 tok/s,日常聊天夠用
│
├── 24GB → Gemma 4 26B A4B(MoE, Q4)或 E4B
│ 26B MoE 只用 3.8B 活躍參數,記憶體友善
│
├── 36GB → Gemma 4 31B(Q4,入門)
│ 跑得動但有點緊,建議關掉其他 app
│
├── 48GB → Gemma 4 31B(Q4,舒適)
│ 推薦配置,日常使用沒問題
│
├── 64GB → Gemma 4 31B(Q8)
│ 幾乎無損品質,速度也不錯
│
└── 128GB+ → Gemma 4 31B(BF16 完全體)
跟雲端 GPU 一樣的品質
E4B:16GB Mac 的最佳選擇
Gemma 4 E4B 只有 4.3B 參數,Q4 量化後大約 2-3 GB。在 16GB 的 MacBook Air 上就能流暢運行,而且速度飛快(80+ tok/s)。雖然能力比不上 31B,但對於一般問答、程式碼生成、文件摘要來說綽綽有餘。
ollama run gemma4:e4b
26B A4B:24GB Mac 的性價比之王
26B MoE 模型的精妙之處在於:它有 25.2B 總參數,但每次推理只激活 3.8B。這意味著雖然模型比較大(需要更多記憶體儲存),但推理速度接近小模型,而品質遠超小模型。
如果你有 24GB Mac,想要比 E4B 更強但又跑不動 31B,26B A4B 就是你的答案。想了解 MoE 架構的運作原理?請參考 Gemma 4 架構深度解析。
常見問題
24GB Mac 到底能不能跑 Gemma 4 31B?
技術上可以載入 Q4 量化版,但實際體驗非常差。模型本身約 17-20 GB,加上 KV Cache 和系統開銷,24GB 幾乎沒有餘裕。社群實測確認會大量 swap,速度慢到無法使用。建議改用 26B A4B 或 E4B。
跑 Gemma 4 31B 時可以同時開其他 app 嗎?
看你的記憶體配置。48GB M4 Max 跑 Q4(佔用約 20-24 GB)後還剩 24GB 左右,跑瀏覽器和 VS Code 沒問題。36GB 就比較緊,建議跑模型時盡量關掉不必要的程式。
Q4 量化品質夠嗎?會不會差很多?
Q4 量化確實會損失一些精度,但在大多數使用場景中幾乎感覺不到差異。程式碼生成、文件摘要、一般問答的品質都維持得很好。只有在需要精確數學推理或複雜邏輯推理時,Q8 或 BF16 的優勢才比較明顯。如果你想深入了解,可以參考 Gemma 4 微調指南 中關於量化對微調影響的段落。
MLX 和 Ollama 可以同時安裝嗎?
可以。它們是完全獨立的框架,不會互相干擾。Ollama 用 GGUF 格式的模型,MLX 用自己的格式,模型檔案分開存放。你可以兩個都裝,根據需求切換使用。
模型下載後存在哪裡?
Ollama 的模型預設存在 ~/.ollama/models/。MLX 的模型通常透過 Hugging Face Hub 下載,存在 ~/.cache/huggingface/hub/。兩者加起來可能佔用 40-50 GB 磁碟空間,確保你的 SSD 有足夠容量。
為什麼 MLX 目前不建議作為首選?
MLX 本身是個很棒的框架,問題出在 Gemma 4 的支援還不夠成熟。截至 2026 年 4 月,mlx-community 的 4-bit 模型載入會失敗、LM Studio 的 MLX 後端不支援、chat template 需要手動處理。這些問題都在積極修復中,可能幾週後就沒事了。但現在如果你只是想穩定地跑 Gemma 4 31B,Ollama 是更安全的選擇。
結語
Apple Silicon 讓「在自己的電腦上跑 31B 大模型」從夢想變成現實。統一記憶體架構消除了傳統 PC 的 VRAM 限制,讓一台 MacBook Pro 就能做到以前需要專業 GPU 伺服器才能做的事。
選對硬體是第一步:48GB M4 Max 是目前最佳甜蜜點。選對框架是第二步:Ollama 穩定優先,MLX 等成熟後再切換。記憶體不夠也別灰心:E4B 和 26B A4B 同樣是 Gemma 4 家族的優秀成員。
想了解 Gemma 4 的完整技術細節和更多部署選項?回到我們的 Gemma 4 完整指南 看看全貌。對於企業級部署需求,也可以參考 Gemma 4 本地部署完整教學。
想在 Mac 上部署企業級 AI?預約免費諮詢,CloudInsight 團隊能幫你從硬體採購到部署上線一站搞定。
相關文章
Gemma 4 硬體需求完整對照:從手機到 H100,選對配備不踩雷
2026 年 Gemma 4 四款模型的硬體需求完整對照表:E2B 手機可跑、E4B 筆電就夠、26B MoE 需 24GB GPU、31B Dense 需 80GB H100。含量化精度比較、消費級硬體實測、伺服器配置建議。
AI 開發工具Gemma 4 本地部署教學:Ollama、LM Studio、Unsloth 三種方式完整攻略
2026 年如何在本地跑 Gemma 4?完整教學三種部署方式:Ollama 五分鐘快速上手、LM Studio 圖形化零門檻、Unsloth 進階推理+微調。含硬體需求、量化選擇與常見問題排除。
AI 開發工具Gemma 4 完整指南:2026 年最強開源模型從入門到實戰
2026 年 Google 發布 Gemma 4 開源模型,Apache 2.0 授權、四種尺寸(E2B 到 31B)、256K context window、多模態支援。完整解析架構、部署、微調、API 串接與企業導入策略。