Gemma 4 API 串接教學:Vertex AI 與 Google AI Studio 實戰
Gemma 4 API 串接教學:Vertex AI 與 Google AI Studio 實戰

TL;DR: Gemma 4 提供兩種雲端 API 串接路徑:Google AI Studio 免費方案適合原型開發和個人專案,Vertex AI 適合需要 SLA、合規性和私有端點的企業部署。兩者都使用 google-genai Python SDK,程式碼切換只需改一行。31B 模型 API 定價約 $0.14/百萬輸入 token、$0.40/百萬輸出 token,是目前同級開源模型中最具性價比的選擇。
你已經聽說 Gemma 4 有多強了——AIME 數學推理 89.2%、MMLU Pro 85.2%、原生 Function Calling 支援。但如果你不想自己搞硬體、不想管 GPU 記憶體,直接透過 API 串接是最快的上手方式。
問題是:Google AI Studio 和 Vertex AI 到底該選哪個?免費方案的限制在哪?企業級部署要花多少錢?
這篇教學會從頭帶你走一遍。從註冊帳號、拿到 API Key,到寫出第一個多模態 API 呼叫,再到 Function Calling 和成本優化——所有程式碼都可以直接複製貼上跑起來。
想快速導入 Gemma 4 到你的產品?預約架構諮詢,我們幫你評估最適合的部署方案。
如果你還不了解 Gemma 4 的基本規格和定位,建議先閱讀 Gemma 4 完整指南。
兩種雲端使用方式:Vertex AI vs Google AI Studio

先講結論:如果你是個人開發者或小團隊在做原型驗證,用 Google AI Studio。如果你的應用要上線、有合規需求、需要 SLA 保障,用 Vertex AI。
兩者的底層模型完全一樣,差別在於基礎設施和服務等級。
| 比較項目 | Google AI Studio | Vertex AI |
|---|---|---|
| 適用對象 | 個人開發者、原型開發 | 企業、生產環境 |
| 費用 | 免費方案 + 付費方案 | 按用量計費 |
| API Key 取得 | 一鍵生成,不需信用卡 | 需 GCP 專案 + 服務帳號 |
| SLA | 無 | 99.9% |
| 資料隱私 | 標準條款 | VPC-SC、CMEK 加密 |
| 模型選擇 | Gemma 4 全系列 | Gemma 4 全系列 + 自建端點 |
| 速率限制 | 免費:15 RPM / 付費:較高 | 依配額設定 |
| 適合場景 | 學習、實驗、低流量應用 | 生產部署、高流量、金融醫療等合規產業 |
一個常見的誤解:很多人以為 Google AI Studio 只能在網頁介面裡玩,其實不是。它提供完整的 REST API 和 SDK 支援,你拿到 API Key 之後就可以在自己的程式裡呼叫,跟 Vertex AI 的開發體驗幾乎一樣。
兩者用的都是同一個 google-genai Python SDK,差別只在初始化方式。這意味著你可以先用 Google AI Studio 免費開發,等需要上線時再無痛切換到 Vertex AI。
想了解更多 Google 雲端 AI 服務的完整生態系?可以參考 Gemini API 完整指南。
Google AI Studio 快速上手:免費開始用 Gemma 4
最快 5 分鐘就能發出你的第一個 Gemma 4 API 請求。以下是完整步驟。
步驟一:取得 API Key
- 前往 Google AI Studio
- 用 Google 帳號登入
- 點擊左側選單的「Get API Key」
- 選擇「Create API key in new project」或指定現有 GCP 專案
- 複製產生的 API Key
不需要信用卡,不需要啟用計費,免費方案就能開始用。但要注意:免費方案的速率限制是每分鐘 15 次請求(15 RPM),每天有 token 上限。
步驟二:安裝 Python SDK
pip install -U google-genai
google-genai 是 Google 在 2025 年推出的統一 AI SDK,取代了之前的 google-generativeai。它同時支援 Google AI Studio 和 Vertex AI,語法更簡潔。
步驟三:第一次呼叫 Gemma 4
from google import genai
# 初始化客戶端(Google AI Studio 方式)
client = genai.Client(api_key="YOUR_API_KEY")
# 呼叫 Gemma 4 31B
response = client.models.generate_content(
model="gemma-4-31b-it",
contents="用一段話解釋什麼是 Mixture-of-Experts 架構"
)
print(response.text)
就這麼簡單。gemma-4-31b-it 是 Gemma 4 31B Instruct 版本的模型 ID。其他可用模型包括:
gemma-4-26b-a4b-it:26B MoE 版,推理成本更低gemma-4-e4b-it:4B 輕量版gemma-4-e2b-it:2B 邊緣裝置版
我建議開發初期用 26B MoE 版,因為它的性能接近 31B(約 97%),但推理速度更快、成本更低。
免費方案的實際限制
Google AI Studio 免費方案在 2026 年的限制:
- 速率限制:15 RPM(每分鐘請求數)
- 每日 token 上限:依模型和地區而異
- 配額綁定專案:多個 API Key 共享同一專案配額,不能靠建多個 Key 繞過限制
- 無 SLA:服務可能中斷,不適合生產環境
如果你是學生、獨立開發者或在做內部工具,免費方案絕對夠用。但如果你的應用會服務外部用戶,建議從一開始就用付費方案或 Vertex AI。
Vertex AI 串接:企業級 Gemma 4 API
Vertex AI 是 Google Cloud 的 AI/ML 平台。選它的理由很明確:SLA 保障、VPC 網路隔離、CMEK 加密、IAM 精細權限控制。如果你的公司在金融、醫療、或有嚴格資料合規要求,Vertex AI 是唯一合理的選擇。
前置準備
- 建立 GCP 專案:前往 Google Cloud Console 建立新專案
- 啟用 Vertex AI API:在 API Library 中搜尋並啟用 Vertex AI API
- 設定計費帳號:Vertex AI 需要有效的計費帳號
- 安裝 gcloud CLI:用於本地開發時的身份認證
# 安裝 gcloud CLI(macOS)
brew install google-cloud-sdk
# 登入並設定專案
gcloud auth login
gcloud config set project YOUR_PROJECT_ID
# 設定應用程式預設憑證(ADC)
gcloud auth application-default login
使用 Vertex AI API 呼叫 Gemma 4
from google import genai
# 初始化客戶端(Vertex AI 方式)
client = genai.Client(
vertexai=True,
project="your-gcp-project-id",
location="us-central1"
)
# 呼叫方式與 Google AI Studio 完全相同
response = client.models.generate_content(
model="gemma-4-31b-it",
contents="列出 Kubernetes 部署最佳實踐的 5 個重點"
)
print(response.text)
注意到了嗎?唯一的差別就是初始化客戶端時多了 vertexai=True、project 和 location 三個參數。之後的 generate_content() 呼叫完全一樣。這就是 google-genai SDK 統一兩個平台的好處。
Vertex AI Model Garden 部署
如果你需要更大的控制權——自訂硬體、獨佔 GPU、特定的推理最佳化——可以透過 Model Garden 自建端點:
- 前往 Vertex AI Model Garden
- 搜尋「Gemma 4」,選擇需要的版本
- 點擊「Deploy」,選擇 GPU 類型和數量
- 部署完成後,用端點 URL 發送請求
自建端點的好處是你可以完全控制運算資源,壞處是即使沒有流量也要付 GPU 租用費。26B MoE 版本已支援 Serverless 方案,推薦優先考慮。
需要 Vertex AI 企業級部署支援?聯絡我們的雲端架構團隊,提供從方案設計到上線的全程服務。
如果你同時在使用 Gemini 模型,Vertex AI 能統一管理所有模型的端點和計費。更多 Gemini API 串接細節請參考 Gemini API Python 串接教學。
Python 串接範例:從文字到多模態

以下是幾個常見的串接場景,所有程式碼都基於 google-genai SDK,Google AI Studio 和 Vertex AI 通用。
基本文字生成(含參數調整)
from google import genai
from google.genai import types
client = genai.Client(api_key="YOUR_API_KEY")
response = client.models.generate_content(
model="gemma-4-31b-it",
contents="寫一篇 200 字的產品描述:智慧型空氣清淨機",
config=types.GenerateContentConfig(
temperature=0.7,
top_p=0.9,
top_k=40,
max_output_tokens=1024,
)
)
print(response.text)
temperature 控制創意程度:0 最保守、1 最隨機。寫程式碼建議 0.2,寫行銷文案可以拉到 0.8。
圖片輸入(多模態)
Gemma 4 所有版本都支援圖片輸入,這讓你可以做 OCR、圖表分析、UI 截圖理解等任務。
from google import genai
from google.genai import types
from pathlib import Path
client = genai.Client(api_key="YOUR_API_KEY")
# 讀取本地圖片
image_bytes = Path("receipt.jpg").read_bytes()
response = client.models.generate_content(
model="gemma-4-31b-it",
contents=[
types.Part.from_bytes(data=image_bytes, mime_type="image/jpeg"),
"請幫我解析這張收據,列出每個品項和金額"
]
)
print(response.text)
串流回應(Streaming)
對於長文本生成,串流模式可以讓用戶更快看到回應的第一個字:
from google import genai
client = genai.Client(api_key="YOUR_API_KEY")
response_stream = client.models.generate_content_stream(
model="gemma-4-31b-it",
contents="寫一篇關於 AI 在醫療領域應用的深度分析報告"
)
for chunk in response_stream:
print(chunk.text, end="", flush=True)
串流模式在前端即時顯示場景(像 ChatGPT 那樣逐字出現)特別有用。延遲從「等整段回應」變成「等第一個 token」,體感速度提升非常明顯。
系統提示(System Prompt)
Gemma 4 原生支援 system role,這是比 Gemma 3 的一大進步:
from google import genai
from google.genai import types
client = genai.Client(api_key="YOUR_API_KEY")
response = client.models.generate_content(
model="gemma-4-31b-it",
contents=[
types.Content(
role="user",
parts=[types.Part.from_text("今天天氣怎麼樣?")]
)
],
config=types.GenerateContentConfig(
system_instruction="你是一位專業的氣象播報員,回答時請用正式但親切的語氣,並附上穿衣建議。"
)
)
print(response.text)
System Prompt 是控制模型行為最有效的方式。你可以設定語氣、角色、輸出格式、安全邊界。我們在生產環境中通常會把 System Prompt 寫得非常詳細,包含明確的 do/don't 清單。
更多多模態應用案例和最佳實踐,請參考 Gemma 4 多模態完整指南。
進階用法:Function Calling 與工具呼叫
Function Calling 是 Gemma 4 最令人興奮的新功能之一。它讓模型能夠「使用工具」——根據用戶的問題,模型會判斷需要呼叫哪個外部函式,並生成結構化的 JSON 參數。
這不是簡單的文字解析。Gemma 4 原生支援 Function Calling 協定,使用專門的 token 來標記工具呼叫,準確率遠高於靠 prompt engineering 硬做的方式。
定義工具並呼叫
from google import genai
from google.genai import types
client = genai.Client(api_key="YOUR_API_KEY")
# 定義工具(函式)
get_weather = types.Tool(
function_declarations=[
types.FunctionDeclaration(
name="get_current_weather",
description="取得指定城市的目前天氣資訊",
parameters=types.Schema(
type="OBJECT",
properties={
"city": types.Schema(
type="STRING",
description="城市名稱,例如:台北、東京"
),
"unit": types.Schema(
type="STRING",
enum=["celsius", "fahrenheit"],
description="溫度單位"
)
},
required=["city"]
)
)
]
)
# 發送請求,模型會判斷是否需要呼叫工具
response = client.models.generate_content(
model="gemma-4-31b-it",
contents="台北現在幾度?",
config=types.GenerateContentConfig(
tools=[get_weather]
)
)
# 檢查是否有 function call
for part in response.candidates[0].content.parts:
if part.function_call:
print(f"呼叫函式:{part.function_call.name}")
print(f"參數:{part.function_call.args}")
完整的工具呼叫循環
在實際應用中,你需要:(1) 模型決定呼叫哪個函式;(2) 你的程式執行該函式;(3) 把結果回傳給模型;(4) 模型生成最終回應。
import json
# 步驟 1:模型判斷需要呼叫天氣 API
response = client.models.generate_content(
model="gemma-4-31b-it",
contents="台北現在幾度?穿什麼衣服好?",
config=types.GenerateContentConfig(
tools=[get_weather]
)
)
# 步驟 2:取得 function call 並執行
fc = response.candidates[0].content.parts[0].function_call
weather_data = {"city": "台北", "temperature": 28, "condition": "晴天"}
# 步驟 3:把結果回傳給模型
followup = client.models.generate_content(
model="gemma-4-31b-it",
contents=[
types.Content(role="user", parts=[
types.Part.from_text("台北現在幾度?穿什麼衣服好?")
]),
types.Content(role="model", parts=[
types.Part(function_call=fc)
]),
types.Content(role="function", parts=[
types.Part(function_response=types.FunctionResponse(
name="get_current_weather",
response=weather_data
))
])
],
config=types.GenerateContentConfig(
tools=[get_weather]
)
)
# 步驟 4:模型根據天氣資料生成建議
print(followup.text)
Function Calling 是建構 AI Agent 的基礎。搭配多個工具定義,Gemma 4 可以自主決定使用哪些工具、以什麼順序呼叫,形成完整的 agentic workflow。
想建構 AI Agent 或自動化工作流程?預約技術諮詢,我們幫你設計最適合的架構方案。
API 定價與成本優化
API 成本直接影響你的商業模式是否可行。好消息是,Gemma 4 作為開源模型,API 定價在同級模型中非常有競爭力。
目前的 API 定價
| 模型 | 輸入 token 價格 | 輸出 token 價格 | Context Window |
|---|---|---|---|
| Gemma 4 31B | $0.14 / 百萬 | $0.40 / 百萬 | 262K |
| Gemma 4 26B MoE | $0.13 / 百萬 | $0.40 / 百萬 | 262K |
跟其他模型比一下:
| 模型 | 輸入價格 | 輸出價格 |
|---|---|---|
| Gemma 4 31B | $0.14/M | $0.40/M |
| Gemma 4 26B MoE | $0.13/M | $0.40/M |
| Gemini 2.5 Flash | $0.15/M | $0.60/M |
| Claude 3.5 Haiku | $0.80/M | $4.00/M |
| GPT-4o mini | $0.15/M | $0.60/M |
Gemma 4 的定價基本上是目前市面上最便宜的高品質模型 API 之一。特別是 26B MoE 版,輸入只要 $0.13/百萬 token,性能卻接近 31B 的 97%。
五個成本優化策略
1. 選對模型版本
不是每個任務都需要 31B。分類、摘要、簡單 Q&A 用 26B MoE 甚至 E4B 就夠了,成本可以省 30-50%。
2. 控制輸出長度
設定 max_output_tokens 避免模型「話太多」。如果你只需要一個分類標籤,把 max tokens 設成 10 就好。
3. 善用 System Prompt 控制格式
在 System Prompt 中明確要求「請用 JSON 格式回覆」或「回答限制在 100 字以內」,避免冗長的回應消耗不必要的 token。
4. 批次處理(Batch API)
如果你的請求不需要即時回應(例如每晚批次分析客服紀錄),使用 Batch API 可以大幅降低成本。Vertex AI 提供批次推理功能,延遲換取更低的單價。
5. Prompt 快取(Context Caching)
如果你有固定的 System Prompt 或大量參考文件需要重複附加,Vertex AI 的 Context Caching 功能可以避免重複計費。
更多 API 定價策略和成本分析,請參考 Gemini API 定價完整指南。
想優化你的 AI API 支出?預約免費諮詢,我們幫你分析目前的用量模式,找出最大的省錢空間。
常見問題(FAQ)
Gemma 4 API 和 Gemini API 有什麼不同?
Gemma 4 是開源模型,你可以下載權重自行部署;透過 API 使用則是 Google 代為託管。Gemini 是 Google 的閉源模型,只能透過 API 使用。兩者都可以透過 google-genai SDK 呼叫,但模型 ID 不同(gemma-4-* vs gemini-*)。如果你需要最頂級的性能且不介意閉源,選 Gemini;如果你在意資料控制權和部署彈性,選 Gemma。更多比較請參考 Gemini API 完整指南。
免費方案的速率限制能繞過嗎?
不能。建多個 API Key 不會增加配額,因為配額綁定的是 GCP 專案,不是 Key。如果你需要更高的速率,只有兩個選擇:升級到付費方案,或申請配額提升。
Gemma 4 的 Function Calling 準確率如何?
根據我們的測試,Gemma 4 31B 的 Function Calling 準確率在結構化良好的場景下超過 95%。26B MoE 版本稍低,約 92%。但這很依賴工具定義的品質——description 寫得越清楚,模型判斷越準。
可以同時串接 Gemma 4 和 Gemini 嗎?
可以。google-genai SDK 支援在同一個程式中同時呼叫不同模型。一個常見的架構是:用 Gemma 4 26B 做初步分類和篩選(成本低),把複雜任務路由到 Gemini 3.1 Pro 做深度處理。這種混合架構可以在性能和成本之間找到最佳平衡。
總結:從實驗到生產的最佳路徑
Gemma 4 的 API 串接比你想像的簡單。5 分鐘拿到免費 API Key、10 行 Python 發出第一個請求、原生 Function Calling 讓你快速建構 AI Agent。
我的建議路徑:
- 實驗階段:用 Google AI Studio 免費方案 + 26B MoE 模型
- 開發階段:切換到 Google AI Studio 付費方案,提高速率限制
- 生產階段:遷移到 Vertex AI,獲得 SLA 和合規保障
- 優化階段:根據實際用量分析,混合使用不同模型版本降低成本
每個階段的程式碼改動極小,因為底層都是同一個 SDK。
想深入了解 Gemma 4 的其他面向?這些文章能幫到你:
- Gemma 4 完整指南:模型總覽與企業導入策略
- Gemma 4 架構深度解析:MoE、Dual RoPE 等技術細節
- Gemma 4 本地部署指南:Ollama、vLLM 等部署方式
- Gemma 4 微調教學:LoRA、QLoRA 實戰
- Gemma 4 多模態完整指南:圖片、影片、音訊應用
準備好把 Gemma 4 導入你的專案了嗎?預約免費架構諮詢,讓我們的團隊幫你規劃從概念到上線的完整路徑。
相關文章
Gemma 4 完整指南:2026 年最強開源模型從入門到實戰
2026 年 Google 發布 Gemma 4 開源模型,Apache 2.0 授權、四種尺寸(E2B 到 31B)、256K context window、多模態支援。完整解析架構、部署、微調、API 串接與企業導入策略。
AI 開發工具Gemma 4 企業導入指南:選型策略、成本分析與部署建議
2026 年企業如何導入 Gemma 4 開源模型?完整指南涵蓋四款模型的適用場景、雲端 vs 本地部署成本試算(Vertex AI vs 自建 GPU)、企業部署架構、資料安全合規考量,以及從 PoC 到正式上線的四階段路線圖。
AI 開發工具Gemma 4 本地部署教學:Ollama、LM Studio、Unsloth 三種方式完整攻略
2026 年如何在本地跑 Gemma 4?完整教學三種部署方式:Ollama 五分鐘快速上手、LM Studio 圖形化零門檻、Unsloth 進階推理+微調。含硬體需求、量化選擇與常見問題排除。