GCP AI/ML 與 Vertex AI 完整指南:從模型訓練到生產部署

GCP AI/ML 與 Vertex AI 完整指南:從模型訓練到生產部署
想在公司導入 AI,但不知道從何開始?
自己訓練模型太複雜,用現成 API 又怕不夠彈性?
GCP 的 AI 服務從「零程式碼」到「完全自訂」都有方案。這篇文章會帶你認識 GCP 的 AI 生態系,從 Vertex AI 平台到 Gemini API,找到最適合你的切入點。
想先了解 GCP 的基礎服務?請參考「GCP 完整指南:從入門概念到企業實戰」。
GCP AI/ML 服務生態系總覽
GCP 的 AI 服務不只一個,而是一整個生態系。
Google Cloud AI 的市場定位與優勢
Google 做 AI 有什麼優勢?
技術根基:
- TensorFlow 是 Google 開源的
- TPU(Tensor Processing Unit)是 Google 自研的
- Transformer 架構(GPT、BERT 的基礎)也是 Google 發明的
實戰經驗:
- Google 搜尋、YouTube 推薦、Gmail 垃圾郵件過濾,都在用 ML
- 這些經驗都反映在 GCP 的 AI 服務設計上
獨特優勢:
- 最強的資料分析平台(BigQuery)
- 原生的 AI 基礎設施(TPU)
- 完整的 MLOps 工具鏈
預訓練 API vs 自訂模型的選擇
GCP AI 服務分兩大類:
預訓練 API(現成的):
- 直接呼叫 API 就能用
- 不需要訓練資料
- 不需要 ML 知識
- 適合:常見任務、快速驗證
自訂模型(自己練的):
- 用你的資料訓練
- 可以針對特定需求優化
- 需要 ML 知識或使用 AutoML
- 適合:特殊需求、追求最佳效果
怎麼選?
| 情境 | 選擇 | 原因 |
|---|---|---|
| 辨識通用物體 | Vision API | 已經訓練好了 |
| 辨識自家產品瑕疵 | AutoML Vision | 需要用自己的資料 |
| 翻譯常見語言 | Translation API | 品質已經很好 |
| 翻譯專業術語 | 自訂模型 | 需要領域知識 |
| 快速原型驗證 | 預訓練 API | 快速得到結果 |
| 追求最佳效果 | 自訂模型 | 針對性優化 |
AI 服務架構圖解
GCP AI 服務分層:
┌─────────────────────────────────────────────────┐
│ 應用層:Gemini API、Agent Builder │
├─────────────────────────────────────────────────┤
│ 平台層:Vertex AI │
│ ┌──────────┬──────────┬──────────┬──────────┐ │
│ │ Workbench │ AutoML │ Pipelines │ Model │ │
│ │ │ │ │ Garden │ │
│ └──────────┴──────────┴──────────┴──────────┘ │
├─────────────────────────────────────────────────┤
│ 資料層:BigQuery、Cloud Storage │
├─────────────────────────────────────────────────┤
│ 基礎設施:GPU、TPU、Compute Engine │
└─────────────────────────────────────────────────┘
Vertex AI 平台深度解析
Vertex AI 是 GCP 的統一 AI 平台。所有 ML 工作都可以在這裡完成。
Vertex AI 核心功能介紹
Vertex AI 整合了什麼?
| 功能 | 說明 | 對應舊服務 |
|---|---|---|
| Workbench | Jupyter Notebook 環境 | AI Platform Notebooks |
| Training | 模型訓練服務 | AI Platform Training |
| Prediction | 模型部署服務 | AI Platform Prediction |
| AutoML | 自動化機器學習 | AutoML Vision/NL/Tables |
| Pipelines | ML 工作流程 | Kubeflow Pipelines |
| Feature Store | 特徵管理 | 新功能 |
| Model Registry | 模型版本管理 | 新功能 |
| Model Garden | 預訓練模型庫 | 新功能 |
好處:
- 一個介面管理所有 ML 工作
- 各工具之間無縫整合
- 統一的權限和計費管理
Workbench(Jupyter Notebook 環境)
做 ML 的第一步通常是開一個 Notebook 來探索資料。
Workbench 類型:
| 類型 | 特色 | 適合 |
|---|---|---|
| Managed Notebooks | 完全託管、快速啟動 | 大多數使用者 |
| User-Managed Notebooks | 更多控制權 | 需要自訂配置 |
建立 Workbench Instance:
gcloud workbench instances create my-notebook \
--location=asia-east1-b \
--machine-type=n1-standard-4
預裝工具:
- JupyterLab
- TensorFlow、PyTorch
- Pandas、Scikit-learn
- BigQuery 連接器
- Git 整合
Model Registry 模型管理
訓練完的模型需要版本管理。
功能:
- 模型版本追蹤
- 模型 metadata 管理
- 部署狀態追蹤
- A/B 測試支援
上傳模型到 Registry:
from google.cloud import aiplatform
aiplatform.init(project='my-project', location='asia-east1')
model = aiplatform.Model.upload(
display_name='my-model',
artifact_uri='gs://my-bucket/model/',
serving_container_image_uri='us-docker.pkg.dev/vertex-ai/prediction/tf2-cpu.2-8:latest'
)
Pipelines 工作流程自動化
把整個 ML 流程自動化。
Pipeline 包含什麼:
- 資料載入
- 資料前處理
- 模型訓練
- 模型評估
- 模型部署
使用 Kubeflow Pipelines SDK:
from kfp import dsl
from kfp.v2 import compiler
@dsl.pipeline(name='my-pipeline')
def my_pipeline():
# 定義各個步驟
data_op = load_data_component()
train_op = train_model_component(data=data_op.output)
deploy_op = deploy_model_component(model=train_op.output)
# 編譯並執行
compiler.Compiler().compile(my_pipeline, 'pipeline.json')
Feature Store 特徵工程
特徵是 ML 的核心。Feature Store 幫你管理它們。
解決什麼問題?
- 訓練和推論用同樣的特徵
- 特徵可以跨團隊共享
- 特徵版本管理
- 時間點正確性(Point-in-time correctness)
使用場景:
- 用戶特徵(年齡、喜好、行為)
- 產品特徵(類別、價格、評分)
- 即時特徵(最近點擊、購物車狀態)
AutoML:無程式碼 AI 建模
不會寫程式也能訓練 ML 模型?AutoML 讓這成為可能。
AutoML 運作原理
AutoML 自動處理:
- 資料探索和清理
- 特徵工程
- 模型架構搜尋
- 超參數調整
- 模型訓練
- 模型評估
你只需要:
- 準備標註好的資料
- 上傳到 Vertex AI
- 點擊「Train」
- 等待完成
AutoML Vision(影像辨識)
支援任務:
- 單標籤分類(這是什麼?)
- 多標籤分類(有哪些東西?)
- 物體偵測(在哪裡?)
資料需求:
- 最少 100 張圖片 / 每個類別
- 建議 1,000 張以上效果較好
- 支援 JPG、PNG、BMP、GIF
使用範例:
- 製造業:瑕疵檢測
- 零售業:產品分類
- 醫療:影像診斷輔助
AutoML Natural Language(文字分析)
支援任務:
- 文字分類(情感分析、主題分類)
- 實體擷取(找出人名、地名、組織)
- 情感分析(正面、負面、中性)
資料需求:
- 最少 1,000 筆文件
- 每個類別至少 100 筆
- 支援純文字或 CSV
使用範例:
- 客服:自動分類客訴
- 媒體:新聞主題分類
- 社群:輿情分析
AutoML Tables(結構化資料)
支援任務:
- 分類(這個客戶會流失嗎?)
- 迴歸(這個產品會賣多少?)
資料需求:
- 最少 1,000 筆資料
- 最少 2 欄特徵
- 支援 CSV 或 BigQuery 表格
使用範例:
- 金融:信用風險評估
- 零售:銷售預測
- 行銷:客戶流失預測
AutoML 適用場景與限制
適合用 AutoML:
- 沒有 ML 團隊
- 想快速驗證想法
- 任務屬於標準類型
- 資料量不是特別大
不適合用 AutoML:
- 需要最尖端的模型效能
- 有複雜的自訂需求
- 資料量極大(自訂訓練更划算)
- 需要特殊架構(如 GAN、強化學習)
費用考量:
- AutoML 按訓練小時計費
- 訓練一個影像模型約 $3-20/小時
- 複雜任務可能要訓練幾十小時
Gemini API 與生成式 AI
2024-2025 年最火的 AI 技術:生成式 AI。
Gemini 模型版本比較(Pro / Flash / Ultra)
| 模型 | 特色 | 適合 | 價格 |
|---|---|---|---|
| Gemini 2.0 Flash | 超快速、成本低 | 即時應用、大量請求 | 最低 |
| Gemini 1.5 Pro | 平衡效能和成本 | 一般商業應用 | 中等 |
| Gemini 1.5 Flash | 快速回應 | 對話系統、輕量任務 | 較低 |
| Gemini Ultra | 最強效能 | 複雜推理、專業任務 | 最高 |
選擇建議:
- 先用 Flash 做原型
- 確認可行後評估 Pro
- 只有真的需要才用 Ultra
API 呼叫與計費方式
基本呼叫範例:
import google.generativeai as genai
genai.configure(api_key='YOUR_API_KEY')
model = genai.GenerativeModel('gemini-1.5-pro')
response = model.generate_content('用繁體中文解釋什麼是機器學習')
print(response.text)
從 Vertex AI 呼叫:
from vertexai.generative_models import GenerativeModel
model = GenerativeModel('gemini-1.5-pro')
response = model.generate_content('寫一段產品描述')
print(response.text)
計費方式:
- 按 Token 計費(輸入 + 輸出)
- 1,000 個中文字 ≈ 800-1,200 tokens
- 不同模型價格不同
Prompt Engineering 最佳實踐
好的 Prompt 長這樣:
你是一個專業的產品文案撰寫者。
任務:為以下產品寫一段 50 字的促銷文案。
產品資訊:
- 名稱:超輕量筆電
- 重量:900g
- 特色:16 小時續航、軍規耐用
要求:
1. 使用繁體中文
2. 語調活潑但專業
3. 強調輕量和續航優勢
Prompt 技巧:
- 角色設定:告訴模型它是什麼角色
- 明確任務:清楚說明要做什麼
- 提供範例:給一兩個期望的輸出範例
- 指定格式:要 JSON?列點?段落?
- 限制條件:字數、語言、語調
企業應用案例
案例 1:客服自動回覆
- 用 Gemini 理解客戶問題
- 從知識庫找答案
- 生成自然語言回覆
案例 2:文件摘要
- 上傳長篇報告
- 自動生成重點摘要
- 提取關鍵數據
案例 3:程式碼輔助
- 解釋現有程式碼
- 生成測試案例
- 建議重構方向
案例 4:內容生成
- 產品描述
- 行銷文案
- 技術文件
BigQuery ML:SQL 驅動的機器學習
資料分析師也能做 ML?用 SQL 就可以。
BQML 支援的模型類型
| 模型類型 | SQL 指令 | 適合任務 |
|---|---|---|
| 線性迴歸 | LINEAR_REG | 預測數值 |
| 邏輯迴歸 | LOGISTIC_REG | 二元分類 |
| K-Means | KMEANS | 客戶分群 |
| 時間序列 | ARIMA_PLUS | 預測趨勢 |
| XGBoost | BOOSTED_TREE_CLASSIFIER | 複雜分類 |
| DNN | DNN_CLASSIFIER | 深度學習 |
| AutoML Tables | AUTOML_CLASSIFIER | 自動化 ML |
建立與訓練模型語法
建立模型:
CREATE OR REPLACE MODEL `my_dataset.sales_forecast`
OPTIONS(
model_type='ARIMA_PLUS',
time_series_timestamp_col='date',
time_series_data_col='sales',
time_series_id_col='product_id'
) AS
SELECT
date,
product_id,
sales
FROM
`my_dataset.sales_data`
WHERE
date < '2024-01-01'
預測:
SELECT *
FROM ML.FORECAST(
MODEL `my_dataset.sales_forecast`,
STRUCT(30 AS horizon, 0.95 AS confidence_level)
)
評估模型:
SELECT *
FROM ML.EVALUATE(MODEL `my_dataset.my_model`)
適用場景與效能考量
適合 BQML:
- 資料已經在 BigQuery
- 團隊熟悉 SQL
- 想快速驗證想法
- 任務是標準的分類/迴歸
不適合 BQML:
- 需要最尖端效能
- 任務需要自訂架構
- 影像、語音等非結構化資料
費用提示:
- 訓練費用按處理的資料量計算
- 複雜模型訓練時間較長
- 可以設定訓練預算上限
AI/ML 成本規劃與優化
AI 專案很容易超支,做好成本規劃很重要。
訓練 vs 推論費用結構
訓練費用:
- 一次性費用
- 按運算時間計費
- GPU/TPU 費用高
- 可以用 Spot VM 省錢
推論費用:
- 持續性費用
- 按預測次數或時間計費
- 需要考慮 24/7 運行的成本
- 批次推論比即時推論便宜
費用比較範例:
| 項目 | 訓練費用 | 推論費用(每月) |
|---|---|---|
| 小型模型 | $50-200 | $100-300 |
| 中型模型 | $500-2,000 | $500-1,500 |
| 大型模型 | $5,000-20,000 | $2,000-10,000 |
GPU/TPU 選擇與成本比較
GPU 選項:
| GPU | 記憶體 | 適合 | 每小時費用 |
|---|---|---|---|
| T4 | 16GB | 推論、小型訓練 | ~$0.35 |
| L4 | 24GB | 平衡型 | ~$0.70 |
| A100 40GB | 40GB | 大型訓練 | ~$3.00 |
| A100 80GB | 80GB | 超大模型 | ~$4.00 |
| H100 | 80GB | 最新最強 | ~$8.00 |
TPU 選項:
| TPU | 適合 | 每小時費用 |
|---|---|---|
| v2-8 | 中型訓練 | ~$4.50 |
| v3-8 | 大型訓練 | ~$8.00 |
| v5e | 推論優化 | ~$1.20 |
選擇建議:
- 開發階段 → T4 或 L4
- 正式訓練 → A100
- TensorFlow 大型模型 → TPU
- 推論服務 → T4 或 v5e
批次推論降低成本
即時推論 vs 批次推論:
| 類型 | 延遲 | 成本 | 適合 |
|---|---|---|---|
| 即時(Online) | 毫秒級 | 較高 | 即時應用 |
| 批次(Batch) | 分鐘到小時 | 較低 | 大量處理 |
批次推論使用場景:
- 每日客戶評分更新
- 產品推薦預計算
- 報表數據分析
- 歷史資料回填
成本差異: 批次推論可以比即時推論便宜 60-80%。
企業 AI 導入最佳實踐
從 POC 到生產,企業 AI 專案怎麼走?
從 POC 到 Production 的路徑
階段 1:探索與定義(2-4 週)
- 確認業務問題
- 評估資料可用性
- 定義成功指標
- 評估技術可行性
階段 2:POC(4-8 週)
- 小規模資料驗證
- 快速建立原型
- 驗證效果是否達標
- 估算正式環境成本
階段 3:開發(8-16 週)
- 完整資料處理流程
- 模型調優
- 建立 MLOps 流程
- 整合現有系統
階段 4:上線(4-8 週)
- 效能測試
- 漸進式上線
- 監控和警報設定
- 文件和知識轉移
常見失敗原因:
- 跳過 POC 直接開發
- 低估資料清理工作
- 沒有明確的成功指標
- 沒有 MLOps 導致維護困難
MLOps 與模型監控
MLOps 包含什麼:
- 版本控制(資料、程式、模型)
- 自動化訓練 Pipeline
- 模型部署自動化
- 持續監控和重訓練
模型監控指標:
- 預測效能(準確率、召回率)
- 資料漂移(Data Drift)
- 概念漂移(Concept Drift)
- 延遲和吞吐量
Vertex AI Model Monitoring:
from google.cloud import aiplatform
# 啟用監控
endpoint = aiplatform.Endpoint('endpoint-id')
endpoint.update(
traffic_split={'model-v1': 100},
enable_model_monitoring=True,
model_monitoring_config={
'alert_config': {
'email_alert_config': {
'user_emails': ['[email protected]']
}
}
}
)
資料治理與合規考量
資料隱私:
- 個資去識別化
- 資料最小化原則
- 存取權限控制
- 使用紀錄追蹤
模型合規:
- 模型可解釋性
- 偏見檢測和緩解
- 決策透明度
- 人工審核機制
GCP 合規工具:
- Data Loss Prevention(DLP):自動偵測和遮蔽敏感資料
- Cloud Audit Logs:記錄所有操作
- VPC Service Controls:網路層面隔離
資安相關細節請見「GCP 資安與 Cloud Armor 防護完整指南」。
想在企業導入 AI?
從 Gemini 到自建 LLM,選擇很多但坑也很多。
預約 AI 導入諮詢,讓有經驗的人幫你避坑。
CloudInsight 的 AI 導入服務:
- 需求評估:釐清業務需求,確認 AI 是否是最佳解
- 技術選型:用現成 API 還是自己訓練?
- POC 規劃:快速驗證可行性和效果
- 成本估算:訓練、推論、維護的完整費用估算
- 架構設計:從資料到部署的完整方案
結論:建構你的 GCP AI 策略
GCP 的 AI 服務很完整,關鍵是找到適合你的切入點。
選擇建議:
| 你的情況 | 建議方案 |
|---|---|
| 想快速試試 AI | Gemini API |
| 有資料但沒 ML 團隊 | AutoML |
| 資料在 BigQuery | BigQuery ML |
| 有 ML 團隊想要更多控制 | Vertex AI 自訂訓練 |
| 需要完整 MLOps | Vertex AI Pipelines |
給不同角色的建議:
給業務主管:
- 先用 Gemini 做內部效率工具
- 從小專案累積經驗
- 成功後再擴大投資
給工程師:
- 熟悉 Vertex AI 平台
- 練習 AutoML 和自訂訓練
- 了解 MLOps 最佳實踐
給資料分析師:
- 用 BigQuery ML 入門
- 逐步學習 AutoML
- 跟工程團隊協作
AI 導入是一個旅程,不是一個專案。從小開始,持續學習,逐步擴大規模。
延伸閱讀
- 了解 GCP 基礎知識,請參考 GCP 完整指南
- 想了解運算服務怎麼操作,請見 GCP 核心服務實戰教學
- 費用規劃請見 GCP 定價與費用計算完整指南
- 資安合規請見 GCP 資安與 Cloud Armor 防護指南
圖片說明
插圖:GCP AI 服務分層架構圖
場景描述: 四層架構圖,從下到上依序是「基礎設施層」(GPU、TPU)、「資料層」(BigQuery、Cloud Storage)、「平台層」(Vertex AI)、「應用層」(Gemini API、Agent Builder)。每層用不同深淺的藍色表示,層與層之間有連接線。
視覺重點:
- 主要內容清晰呈現
必須出現的元素:
- 依據描述中的關鍵元素
需要顯示的中文字: 無
顏色調性: 專業、清晰
避免元素: 抽象圖形、齒輪、發光特效
Slug:
gcp-ai-services-layered-architecture
插圖:Vertex AI 功能總覽
場景描述: 蜂巢式(Hexagon)的功能區塊圖,中央是 Vertex AI logo,周圍環繞六個六邊形區塊,分別標示 Workbench、Training、Prediction、AutoML、Pipelines、Feature Store。各區塊用不同顏色區分功能類型。
視覺重點:
- 主要內容清晰呈現
必須出現的元素:
- 依據描述中的關鍵元素
需要顯示的中文字: 無
顏色調性: 專業、清晰
避免元素: 抽象圖形、齒輪、發光特效
Slug:
vertex-ai-features-hexagon-overview
插圖:AutoML vs 自訂訓練決策矩陣
場景描述: 二維矩陣圖,X 軸是「ML 專業程度」(低到高),Y 軸是「自訂需求」(低到高)。左下象限標示 AutoML(綠色),右上象限標示自訂訓練(藍色),右下象限標示 BigQuery ML(橘色),左上象限標示預訓練 API(灰色)。
視覺重點:
- 主要內容清晰呈現
必須出現的元素:
- 依據描述中的關鍵元素
需要顯示的中文字: 無
顏色調性: 專業、清晰
避免元素: 抽象圖形、齒輪、發光特效
Slug:
automl-custom-training-decision-matrix
插圖:AI 專案生命週期流程圖
場景描述: 環形流程圖顯示 AI 專案的生命週期。從「業務問題」開始,順時針依序經過「資料收集」「模型開發」「模型部署」「監控維護」,然後回到「業務問題」形成循環。每個階段用不同顏色的圓弧表示,中間標示「持續改進」。
視覺重點:
- 主要內容清晰呈現
必須出現的元素:
- 依據描述中的關鍵元素
需要顯示的中文字: 無
顏色調性: 專業、清晰
避免元素: 抽象圖形、齒輪、發光特效
Slug:
ai-project-lifecycle-circular-diagram
參考資料
- Google Cloud,《Vertex AI Documentation》(2024)
- Google Cloud,《AutoML Documentation》(2024)
- Google Cloud,《Gemini API Documentation》(2024)
- Google Cloud,《BigQuery ML Documentation》(2024)
- Google Cloud,《MLOps: Continuous delivery and automation pipelines in machine learning》(2024)
相關文章
GCP 完整指南(2025):Google Cloud Platform 從入門概念到企業實戰
GCP(Google Cloud Platform)是什麼?本指南完整介紹 Google 雲端平台的核心服務、定價計算、證照考試與 AWS 比較,幫助企業選擇最適合的雲端方案。
GeminiGemini API 費用指南 2025:Token 計價、免費額度與成本估算
Gemini API 怎麼收費?完整解析 Token 計價模式、免費額度限制、各模型價格表,附實際成本估算範例,幫開發者做好預算規劃。
LLMLLM 是什麼?大型語言模型完整指南:從原理到企業應用【2026】
LLM 是什麼意思?本文完整解析大型語言模型的核心原理、主流模型比較(GPT-5.2、Claude Opus 4.5、Gemini 3 Pro)、MCP 協議、企業應用場景與導入策略,幫你快速掌握 AI 技術趨勢。