返回首頁AI 開發工具

Gemma 4 API 串接教學:Vertex AI 與 Google AI Studio 實戰

21 min 分鐘閱讀
#Gemma 4#API#Vertex AI#Google AI Studio#Python#串接教學#Function Calling#多模態#雲端 AI#開發者教學

Gemma 4 API 串接教學:Vertex AI 與 Google AI Studio 實戰

Gemma 4 API 雲端串接概念圖

TL;DR: Gemma 4 提供兩種雲端 API 串接路徑:Google AI Studio 免費方案適合原型開發和個人專案,Vertex AI 適合需要 SLA、合規性和私有端點的企業部署。兩者都使用 google-genai Python SDK,程式碼切換只需改一行。31B 模型 API 定價約 $0.14/百萬輸入 token、$0.40/百萬輸出 token,是目前同級開源模型中最具性價比的選擇。

你已經聽說 Gemma 4 有多強了——AIME 數學推理 89.2%、MMLU Pro 85.2%、原生 Function Calling 支援。但如果你不想自己搞硬體、不想管 GPU 記憶體,直接透過 API 串接是最快的上手方式。

問題是:Google AI Studio 和 Vertex AI 到底該選哪個?免費方案的限制在哪?企業級部署要花多少錢?

這篇教學會從頭帶你走一遍。從註冊帳號、拿到 API Key,到寫出第一個多模態 API 呼叫,再到 Function Calling 和成本優化——所有程式碼都可以直接複製貼上跑起來。

想快速導入 Gemma 4 到你的產品?預約架構諮詢,我們幫你評估最適合的部署方案。

如果你還不了解 Gemma 4 的基本規格和定位,建議先閱讀 Gemma 4 完整指南


兩種雲端使用方式:Vertex AI vs Google AI Studio

Google AI Studio vs Vertex AI 比較

先講結論:如果你是個人開發者或小團隊在做原型驗證,用 Google AI Studio。如果你的應用要上線、有合規需求、需要 SLA 保障,用 Vertex AI。

兩者的底層模型完全一樣,差別在於基礎設施和服務等級。

比較項目Google AI StudioVertex AI
適用對象個人開發者、原型開發企業、生產環境
費用免費方案 + 付費方案按用量計費
API Key 取得一鍵生成,不需信用卡需 GCP 專案 + 服務帳號
SLA99.9%
資料隱私標準條款VPC-SC、CMEK 加密
模型選擇Gemma 4 全系列Gemma 4 全系列 + 自建端點
速率限制免費:15 RPM / 付費:較高依配額設定
適合場景學習、實驗、低流量應用生產部署、高流量、金融醫療等合規產業

一個常見的誤解:很多人以為 Google AI Studio 只能在網頁介面裡玩,其實不是。它提供完整的 REST API 和 SDK 支援,你拿到 API Key 之後就可以在自己的程式裡呼叫,跟 Vertex AI 的開發體驗幾乎一樣。

兩者用的都是同一個 google-genai Python SDK,差別只在初始化方式。這意味著你可以先用 Google AI Studio 免費開發,等需要上線時再無痛切換到 Vertex AI。

想了解更多 Google 雲端 AI 服務的完整生態系?可以參考 Gemini API 完整指南


Google AI Studio 快速上手:免費開始用 Gemma 4

最快 5 分鐘就能發出你的第一個 Gemma 4 API 請求。以下是完整步驟。

步驟一:取得 API Key

  1. 前往 Google AI Studio
  2. 用 Google 帳號登入
  3. 點擊左側選單的「Get API Key」
  4. 選擇「Create API key in new project」或指定現有 GCP 專案
  5. 複製產生的 API Key

不需要信用卡,不需要啟用計費,免費方案就能開始用。但要注意:免費方案的速率限制是每分鐘 15 次請求(15 RPM),每天有 token 上限。

步驟二:安裝 Python SDK

pip install -U google-genai

google-genai 是 Google 在 2025 年推出的統一 AI SDK,取代了之前的 google-generativeai。它同時支援 Google AI Studio 和 Vertex AI,語法更簡潔。

步驟三:第一次呼叫 Gemma 4

from google import genai

# 初始化客戶端(Google AI Studio 方式)
client = genai.Client(api_key="YOUR_API_KEY")

# 呼叫 Gemma 4 31B
response = client.models.generate_content(
    model="gemma-4-31b-it",
    contents="用一段話解釋什麼是 Mixture-of-Experts 架構"
)

print(response.text)

就這麼簡單。gemma-4-31b-it 是 Gemma 4 31B Instruct 版本的模型 ID。其他可用模型包括:

  • gemma-4-26b-a4b-it:26B MoE 版,推理成本更低
  • gemma-4-e4b-it:4B 輕量版
  • gemma-4-e2b-it:2B 邊緣裝置版

我建議開發初期用 26B MoE 版,因為它的性能接近 31B(約 97%),但推理速度更快、成本更低。

免費方案的實際限制

Google AI Studio 免費方案在 2026 年的限制:

  • 速率限制:15 RPM(每分鐘請求數)
  • 每日 token 上限:依模型和地區而異
  • 配額綁定專案:多個 API Key 共享同一專案配額,不能靠建多個 Key 繞過限制
  • 無 SLA:服務可能中斷,不適合生產環境

如果你是學生、獨立開發者或在做內部工具,免費方案絕對夠用。但如果你的應用會服務外部用戶,建議從一開始就用付費方案或 Vertex AI。


Vertex AI 串接:企業級 Gemma 4 API

Vertex AI 是 Google Cloud 的 AI/ML 平台。選它的理由很明確:SLA 保障、VPC 網路隔離、CMEK 加密、IAM 精細權限控制。如果你的公司在金融、醫療、或有嚴格資料合規要求,Vertex AI 是唯一合理的選擇。

前置準備

  1. 建立 GCP 專案:前往 Google Cloud Console 建立新專案
  2. 啟用 Vertex AI API:在 API Library 中搜尋並啟用 Vertex AI API
  3. 設定計費帳號:Vertex AI 需要有效的計費帳號
  4. 安裝 gcloud CLI:用於本地開發時的身份認證
# 安裝 gcloud CLI(macOS)
brew install google-cloud-sdk

# 登入並設定專案
gcloud auth login
gcloud config set project YOUR_PROJECT_ID

# 設定應用程式預設憑證(ADC)
gcloud auth application-default login

使用 Vertex AI API 呼叫 Gemma 4

from google import genai

# 初始化客戶端(Vertex AI 方式)
client = genai.Client(
    vertexai=True,
    project="your-gcp-project-id",
    location="us-central1"
)

# 呼叫方式與 Google AI Studio 完全相同
response = client.models.generate_content(
    model="gemma-4-31b-it",
    contents="列出 Kubernetes 部署最佳實踐的 5 個重點"
)

print(response.text)

注意到了嗎?唯一的差別就是初始化客戶端時多了 vertexai=Trueprojectlocation 三個參數。之後的 generate_content() 呼叫完全一樣。這就是 google-genai SDK 統一兩個平台的好處。

Vertex AI Model Garden 部署

如果你需要更大的控制權——自訂硬體、獨佔 GPU、特定的推理最佳化——可以透過 Model Garden 自建端點:

  1. 前往 Vertex AI Model Garden
  2. 搜尋「Gemma 4」,選擇需要的版本
  3. 點擊「Deploy」,選擇 GPU 類型和數量
  4. 部署完成後,用端點 URL 發送請求

自建端點的好處是你可以完全控制運算資源,壞處是即使沒有流量也要付 GPU 租用費。26B MoE 版本已支援 Serverless 方案,推薦優先考慮。

需要 Vertex AI 企業級部署支援?聯絡我們的雲端架構團隊,提供從方案設計到上線的全程服務。

如果你同時在使用 Gemini 模型,Vertex AI 能統一管理所有模型的端點和計費。更多 Gemini API 串接細節請參考 Gemini API Python 串接教學


Python 串接範例:從文字到多模態

Python 程式碼串接 Gemma 4 API

以下是幾個常見的串接場景,所有程式碼都基於 google-genai SDK,Google AI Studio 和 Vertex AI 通用。

基本文字生成(含參數調整)

from google import genai
from google.genai import types

client = genai.Client(api_key="YOUR_API_KEY")

response = client.models.generate_content(
    model="gemma-4-31b-it",
    contents="寫一篇 200 字的產品描述:智慧型空氣清淨機",
    config=types.GenerateContentConfig(
        temperature=0.7,
        top_p=0.9,
        top_k=40,
        max_output_tokens=1024,
    )
)

print(response.text)

temperature 控制創意程度:0 最保守、1 最隨機。寫程式碼建議 0.2,寫行銷文案可以拉到 0.8。

圖片輸入(多模態)

Gemma 4 所有版本都支援圖片輸入,這讓你可以做 OCR、圖表分析、UI 截圖理解等任務。

from google import genai
from google.genai import types
from pathlib import Path

client = genai.Client(api_key="YOUR_API_KEY")

# 讀取本地圖片
image_bytes = Path("receipt.jpg").read_bytes()

response = client.models.generate_content(
    model="gemma-4-31b-it",
    contents=[
        types.Part.from_bytes(data=image_bytes, mime_type="image/jpeg"),
        "請幫我解析這張收據,列出每個品項和金額"
    ]
)

print(response.text)

串流回應(Streaming)

對於長文本生成,串流模式可以讓用戶更快看到回應的第一個字:

from google import genai

client = genai.Client(api_key="YOUR_API_KEY")

response_stream = client.models.generate_content_stream(
    model="gemma-4-31b-it",
    contents="寫一篇關於 AI 在醫療領域應用的深度分析報告"
)

for chunk in response_stream:
    print(chunk.text, end="", flush=True)

串流模式在前端即時顯示場景(像 ChatGPT 那樣逐字出現)特別有用。延遲從「等整段回應」變成「等第一個 token」,體感速度提升非常明顯。

系統提示(System Prompt)

Gemma 4 原生支援 system role,這是比 Gemma 3 的一大進步:

from google import genai
from google.genai import types

client = genai.Client(api_key="YOUR_API_KEY")

response = client.models.generate_content(
    model="gemma-4-31b-it",
    contents=[
        types.Content(
            role="user",
            parts=[types.Part.from_text("今天天氣怎麼樣?")]
        )
    ],
    config=types.GenerateContentConfig(
        system_instruction="你是一位專業的氣象播報員,回答時請用正式但親切的語氣,並附上穿衣建議。"
    )
)

print(response.text)

System Prompt 是控制模型行為最有效的方式。你可以設定語氣、角色、輸出格式、安全邊界。我們在生產環境中通常會把 System Prompt 寫得非常詳細,包含明確的 do/don't 清單。

更多多模態應用案例和最佳實踐,請參考 Gemma 4 多模態完整指南


進階用法:Function Calling 與工具呼叫

Function Calling 是 Gemma 4 最令人興奮的新功能之一。它讓模型能夠「使用工具」——根據用戶的問題,模型會判斷需要呼叫哪個外部函式,並生成結構化的 JSON 參數。

這不是簡單的文字解析。Gemma 4 原生支援 Function Calling 協定,使用專門的 token 來標記工具呼叫,準確率遠高於靠 prompt engineering 硬做的方式。

定義工具並呼叫

from google import genai
from google.genai import types

client = genai.Client(api_key="YOUR_API_KEY")

# 定義工具(函式)
get_weather = types.Tool(
    function_declarations=[
        types.FunctionDeclaration(
            name="get_current_weather",
            description="取得指定城市的目前天氣資訊",
            parameters=types.Schema(
                type="OBJECT",
                properties={
                    "city": types.Schema(
                        type="STRING",
                        description="城市名稱,例如:台北、東京"
                    ),
                    "unit": types.Schema(
                        type="STRING",
                        enum=["celsius", "fahrenheit"],
                        description="溫度單位"
                    )
                },
                required=["city"]
            )
        )
    ]
)

# 發送請求,模型會判斷是否需要呼叫工具
response = client.models.generate_content(
    model="gemma-4-31b-it",
    contents="台北現在幾度?",
    config=types.GenerateContentConfig(
        tools=[get_weather]
    )
)

# 檢查是否有 function call
for part in response.candidates[0].content.parts:
    if part.function_call:
        print(f"呼叫函式:{part.function_call.name}")
        print(f"參數:{part.function_call.args}")

完整的工具呼叫循環

在實際應用中,你需要:(1) 模型決定呼叫哪個函式;(2) 你的程式執行該函式;(3) 把結果回傳給模型;(4) 模型生成最終回應。

import json

# 步驟 1:模型判斷需要呼叫天氣 API
response = client.models.generate_content(
    model="gemma-4-31b-it",
    contents="台北現在幾度?穿什麼衣服好?",
    config=types.GenerateContentConfig(
        tools=[get_weather]
    )
)

# 步驟 2:取得 function call 並執行
fc = response.candidates[0].content.parts[0].function_call
weather_data = {"city": "台北", "temperature": 28, "condition": "晴天"}

# 步驟 3:把結果回傳給模型
followup = client.models.generate_content(
    model="gemma-4-31b-it",
    contents=[
        types.Content(role="user", parts=[
            types.Part.from_text("台北現在幾度?穿什麼衣服好?")
        ]),
        types.Content(role="model", parts=[
            types.Part(function_call=fc)
        ]),
        types.Content(role="function", parts=[
            types.Part(function_response=types.FunctionResponse(
                name="get_current_weather",
                response=weather_data
            ))
        ])
    ],
    config=types.GenerateContentConfig(
        tools=[get_weather]
    )
)

# 步驟 4:模型根據天氣資料生成建議
print(followup.text)

Function Calling 是建構 AI Agent 的基礎。搭配多個工具定義,Gemma 4 可以自主決定使用哪些工具、以什麼順序呼叫,形成完整的 agentic workflow。

想建構 AI Agent 或自動化工作流程?預約技術諮詢,我們幫你設計最適合的架構方案。


API 定價與成本優化

API 成本直接影響你的商業模式是否可行。好消息是,Gemma 4 作為開源模型,API 定價在同級模型中非常有競爭力。

目前的 API 定價

模型輸入 token 價格輸出 token 價格Context Window
Gemma 4 31B$0.14 / 百萬$0.40 / 百萬262K
Gemma 4 26B MoE$0.13 / 百萬$0.40 / 百萬262K

跟其他模型比一下:

模型輸入價格輸出價格
Gemma 4 31B$0.14/M$0.40/M
Gemma 4 26B MoE$0.13/M$0.40/M
Gemini 2.5 Flash$0.15/M$0.60/M
Claude 3.5 Haiku$0.80/M$4.00/M
GPT-4o mini$0.15/M$0.60/M

Gemma 4 的定價基本上是目前市面上最便宜的高品質模型 API 之一。特別是 26B MoE 版,輸入只要 $0.13/百萬 token,性能卻接近 31B 的 97%。

五個成本優化策略

1. 選對模型版本

不是每個任務都需要 31B。分類、摘要、簡單 Q&A 用 26B MoE 甚至 E4B 就夠了,成本可以省 30-50%。

2. 控制輸出長度

設定 max_output_tokens 避免模型「話太多」。如果你只需要一個分類標籤,把 max tokens 設成 10 就好。

3. 善用 System Prompt 控制格式

在 System Prompt 中明確要求「請用 JSON 格式回覆」或「回答限制在 100 字以內」,避免冗長的回應消耗不必要的 token。

4. 批次處理(Batch API)

如果你的請求不需要即時回應(例如每晚批次分析客服紀錄),使用 Batch API 可以大幅降低成本。Vertex AI 提供批次推理功能,延遲換取更低的單價。

5. Prompt 快取(Context Caching)

如果你有固定的 System Prompt 或大量參考文件需要重複附加,Vertex AI 的 Context Caching 功能可以避免重複計費。

更多 API 定價策略和成本分析,請參考 Gemini API 定價完整指南

想優化你的 AI API 支出?預約免費諮詢,我們幫你分析目前的用量模式,找出最大的省錢空間。


常見問題(FAQ)

Gemma 4 API 和 Gemini API 有什麼不同?

Gemma 4 是開源模型,你可以下載權重自行部署;透過 API 使用則是 Google 代為託管。Gemini 是 Google 的閉源模型,只能透過 API 使用。兩者都可以透過 google-genai SDK 呼叫,但模型 ID 不同(gemma-4-* vs gemini-*)。如果你需要最頂級的性能且不介意閉源,選 Gemini;如果你在意資料控制權和部署彈性,選 Gemma。更多比較請參考 Gemini API 完整指南

免費方案的速率限制能繞過嗎?

不能。建多個 API Key 不會增加配額,因為配額綁定的是 GCP 專案,不是 Key。如果你需要更高的速率,只有兩個選擇:升級到付費方案,或申請配額提升。

Gemma 4 的 Function Calling 準確率如何?

根據我們的測試,Gemma 4 31B 的 Function Calling 準確率在結構化良好的場景下超過 95%。26B MoE 版本稍低,約 92%。但這很依賴工具定義的品質——description 寫得越清楚,模型判斷越準。

可以同時串接 Gemma 4 和 Gemini 嗎?

可以。google-genai SDK 支援在同一個程式中同時呼叫不同模型。一個常見的架構是:用 Gemma 4 26B 做初步分類和篩選(成本低),把複雜任務路由到 Gemini 3.1 Pro 做深度處理。這種混合架構可以在性能和成本之間找到最佳平衡。


總結:從實驗到生產的最佳路徑

Gemma 4 的 API 串接比你想像的簡單。5 分鐘拿到免費 API Key、10 行 Python 發出第一個請求、原生 Function Calling 讓你快速建構 AI Agent。

我的建議路徑:

  1. 實驗階段:用 Google AI Studio 免費方案 + 26B MoE 模型
  2. 開發階段:切換到 Google AI Studio 付費方案,提高速率限制
  3. 生產階段:遷移到 Vertex AI,獲得 SLA 和合規保障
  4. 優化階段:根據實際用量分析,混合使用不同模型版本降低成本

每個階段的程式碼改動極小,因為底層都是同一個 SDK。

想深入了解 Gemma 4 的其他面向?這些文章能幫到你:

準備好把 Gemma 4 導入你的專案了嗎?預約免費架構諮詢,讓我們的團隊幫你規劃從概念到上線的完整路徑。

需要專業的雲端建議?

無論您正在評估雲平台、優化現有架構,或尋找節費方案,我們都能提供協助

預約免費諮詢

相關文章