返回首頁GCP

GCP AI/ML 與 Vertex AI 完整指南:從模型訓練到生產部署

22 min 分鐘閱讀
#Vertex AI#GCP AI#機器學習#AutoML#Gemini API#MLOps#BigQuery ML#TensorFlow#生成式 AI#企業 AI

GCP AI/ML 與 Vertex AI 完整指南:從模型訓練到生產部署

GCP AI/ML 與 Vertex AI 完整指南:從模型訓練到生產部署

想在公司導入 AI,但不知道從何開始?

自己訓練模型太複雜,用現成 API 又怕不夠彈性?

GCP 的 AI 服務從「零程式碼」到「完全自訂」都有方案。這篇文章會帶你認識 GCP 的 AI 生態系,從 Vertex AI 平台到 Gemini API,找到最適合你的切入點。

想先了解 GCP 的基礎服務?請參考「GCP 完整指南:從入門概念到企業實戰」。


GCP AI/ML 服務生態系總覽

GCP 的 AI 服務不只一個,而是一整個生態系。

Google Cloud AI 的市場定位與優勢

Google 做 AI 有什麼優勢?

技術根基:

  • TensorFlow 是 Google 開源的
  • TPU(Tensor Processing Unit)是 Google 自研的
  • Transformer 架構(GPT、BERT 的基礎)也是 Google 發明的

實戰經驗:

  • Google 搜尋、YouTube 推薦、Gmail 垃圾郵件過濾,都在用 ML
  • 這些經驗都反映在 GCP 的 AI 服務設計上

獨特優勢:

  • 最強的資料分析平台(BigQuery)
  • 原生的 AI 基礎設施(TPU)
  • 完整的 MLOps 工具鏈

預訓練 API vs 自訂模型的選擇

GCP AI 服務分兩大類:

預訓練 API(現成的):

  • 直接呼叫 API 就能用
  • 不需要訓練資料
  • 不需要 ML 知識
  • 適合:常見任務、快速驗證

自訂模型(自己練的):

  • 用你的資料訓練
  • 可以針對特定需求優化
  • 需要 ML 知識或使用 AutoML
  • 適合:特殊需求、追求最佳效果

怎麼選?

情境選擇原因
辨識通用物體Vision API已經訓練好了
辨識自家產品瑕疵AutoML Vision需要用自己的資料
翻譯常見語言Translation API品質已經很好
翻譯專業術語自訂模型需要領域知識
快速原型驗證預訓練 API快速得到結果
追求最佳效果自訂模型針對性優化

AI 服務架構圖解

GCP AI 服務分層:

┌─────────────────────────────────────────────────┐
│            應用層:Gemini API、Agent Builder      │
├─────────────────────────────────────────────────┤
│            平台層:Vertex AI                      │
│  ┌──────────┬──────────┬──────────┬──────────┐ │
│  │ Workbench │ AutoML   │ Pipelines │ Model    │ │
│  │          │          │           │ Garden   │ │
│  └──────────┴──────────┴──────────┴──────────┘ │
├─────────────────────────────────────────────────┤
│            資料層:BigQuery、Cloud Storage        │
├─────────────────────────────────────────────────┤
│            基礎設施:GPU、TPU、Compute Engine     │
└─────────────────────────────────────────────────┘

Vertex AI 平台深度解析

Vertex AI 是 GCP 的統一 AI 平台。所有 ML 工作都可以在這裡完成。

Vertex AI 核心功能介紹

Vertex AI 整合了什麼?

功能說明對應舊服務
WorkbenchJupyter Notebook 環境AI Platform Notebooks
Training模型訓練服務AI Platform Training
Prediction模型部署服務AI Platform Prediction
AutoML自動化機器學習AutoML Vision/NL/Tables
PipelinesML 工作流程Kubeflow Pipelines
Feature Store特徵管理新功能
Model Registry模型版本管理新功能
Model Garden預訓練模型庫新功能

好處:

  • 一個介面管理所有 ML 工作
  • 各工具之間無縫整合
  • 統一的權限和計費管理

Workbench(Jupyter Notebook 環境)

做 ML 的第一步通常是開一個 Notebook 來探索資料。

Workbench 類型:

類型特色適合
Managed Notebooks完全託管、快速啟動大多數使用者
User-Managed Notebooks更多控制權需要自訂配置

建立 Workbench Instance:

gcloud workbench instances create my-notebook \
  --location=asia-east1-b \
  --machine-type=n1-standard-4

預裝工具:

  • JupyterLab
  • TensorFlow、PyTorch
  • Pandas、Scikit-learn
  • BigQuery 連接器
  • Git 整合

Model Registry 模型管理

訓練完的模型需要版本管理。

功能:

  • 模型版本追蹤
  • 模型 metadata 管理
  • 部署狀態追蹤
  • A/B 測試支援

上傳模型到 Registry:

from google.cloud import aiplatform

aiplatform.init(project='my-project', location='asia-east1')

model = aiplatform.Model.upload(
    display_name='my-model',
    artifact_uri='gs://my-bucket/model/',
    serving_container_image_uri='us-docker.pkg.dev/vertex-ai/prediction/tf2-cpu.2-8:latest'
)

Pipelines 工作流程自動化

把整個 ML 流程自動化。

Pipeline 包含什麼:

  1. 資料載入
  2. 資料前處理
  3. 模型訓練
  4. 模型評估
  5. 模型部署

使用 Kubeflow Pipelines SDK:

from kfp import dsl
from kfp.v2 import compiler

@dsl.pipeline(name='my-pipeline')
def my_pipeline():
    # 定義各個步驟
    data_op = load_data_component()
    train_op = train_model_component(data=data_op.output)
    deploy_op = deploy_model_component(model=train_op.output)

# 編譯並執行
compiler.Compiler().compile(my_pipeline, 'pipeline.json')

Feature Store 特徵工程

特徵是 ML 的核心。Feature Store 幫你管理它們。

解決什麼問題?

  • 訓練和推論用同樣的特徵
  • 特徵可以跨團隊共享
  • 特徵版本管理
  • 時間點正確性(Point-in-time correctness)

使用場景:

  • 用戶特徵(年齡、喜好、行為)
  • 產品特徵(類別、價格、評分)
  • 即時特徵(最近點擊、購物車狀態)

AutoML:無程式碼 AI 建模

不會寫程式也能訓練 ML 模型?AutoML 讓這成為可能。

AutoML 運作原理

AutoML 自動處理:

  1. 資料探索和清理
  2. 特徵工程
  3. 模型架構搜尋
  4. 超參數調整
  5. 模型訓練
  6. 模型評估

你只需要:

  1. 準備標註好的資料
  2. 上傳到 Vertex AI
  3. 點擊「Train」
  4. 等待完成

AutoML Vision(影像辨識)

支援任務:

  • 單標籤分類(這是什麼?)
  • 多標籤分類(有哪些東西?)
  • 物體偵測(在哪裡?)

資料需求:

  • 最少 100 張圖片 / 每個類別
  • 建議 1,000 張以上效果較好
  • 支援 JPG、PNG、BMP、GIF

使用範例:

  • 製造業:瑕疵檢測
  • 零售業:產品分類
  • 醫療:影像診斷輔助

AutoML Natural Language(文字分析)

支援任務:

  • 文字分類(情感分析、主題分類)
  • 實體擷取(找出人名、地名、組織)
  • 情感分析(正面、負面、中性)

資料需求:

  • 最少 1,000 筆文件
  • 每個類別至少 100 筆
  • 支援純文字或 CSV

使用範例:

  • 客服:自動分類客訴
  • 媒體:新聞主題分類
  • 社群:輿情分析

AutoML Tables(結構化資料)

支援任務:

  • 分類(這個客戶會流失嗎?)
  • 迴歸(這個產品會賣多少?)

資料需求:

  • 最少 1,000 筆資料
  • 最少 2 欄特徵
  • 支援 CSV 或 BigQuery 表格

使用範例:

  • 金融:信用風險評估
  • 零售:銷售預測
  • 行銷:客戶流失預測

AutoML 適用場景與限制

適合用 AutoML:

  • 沒有 ML 團隊
  • 想快速驗證想法
  • 任務屬於標準類型
  • 資料量不是特別大

不適合用 AutoML:

  • 需要最尖端的模型效能
  • 有複雜的自訂需求
  • 資料量極大(自訂訓練更划算)
  • 需要特殊架構(如 GAN、強化學習)

費用考量:

  • AutoML 按訓練小時計費
  • 訓練一個影像模型約 $3-20/小時
  • 複雜任務可能要訓練幾十小時

Gemini API 與生成式 AI

2024-2025 年最火的 AI 技術:生成式 AI。

Gemini 模型版本比較(Pro / Flash / Ultra)

模型特色適合價格
Gemini 2.0 Flash超快速、成本低即時應用、大量請求最低
Gemini 1.5 Pro平衡效能和成本一般商業應用中等
Gemini 1.5 Flash快速回應對話系統、輕量任務較低
Gemini Ultra最強效能複雜推理、專業任務最高

選擇建議:

  • 先用 Flash 做原型
  • 確認可行後評估 Pro
  • 只有真的需要才用 Ultra

API 呼叫與計費方式

基本呼叫範例:

import google.generativeai as genai

genai.configure(api_key='YOUR_API_KEY')

model = genai.GenerativeModel('gemini-1.5-pro')
response = model.generate_content('用繁體中文解釋什麼是機器學習')

print(response.text)

從 Vertex AI 呼叫:

from vertexai.generative_models import GenerativeModel

model = GenerativeModel('gemini-1.5-pro')
response = model.generate_content('寫一段產品描述')

print(response.text)

計費方式:

  • 按 Token 計費(輸入 + 輸出)
  • 1,000 個中文字 ≈ 800-1,200 tokens
  • 不同模型價格不同

Prompt Engineering 最佳實踐

好的 Prompt 長這樣:

你是一個專業的產品文案撰寫者。

任務:為以下產品寫一段 50 字的促銷文案。

產品資訊:
- 名稱:超輕量筆電
- 重量:900g
- 特色:16 小時續航、軍規耐用

要求:
1. 使用繁體中文
2. 語調活潑但專業
3. 強調輕量和續航優勢

Prompt 技巧:

  • 角色設定:告訴模型它是什麼角色
  • 明確任務:清楚說明要做什麼
  • 提供範例:給一兩個期望的輸出範例
  • 指定格式:要 JSON?列點?段落?
  • 限制條件:字數、語言、語調

企業應用案例

案例 1:客服自動回覆

  • 用 Gemini 理解客戶問題
  • 從知識庫找答案
  • 生成自然語言回覆

案例 2:文件摘要

  • 上傳長篇報告
  • 自動生成重點摘要
  • 提取關鍵數據

案例 3:程式碼輔助

  • 解釋現有程式碼
  • 生成測試案例
  • 建議重構方向

案例 4:內容生成

  • 產品描述
  • 行銷文案
  • 技術文件

BigQuery ML:SQL 驅動的機器學習

資料分析師也能做 ML?用 SQL 就可以。

BQML 支援的模型類型

模型類型SQL 指令適合任務
線性迴歸LINEAR_REG預測數值
邏輯迴歸LOGISTIC_REG二元分類
K-MeansKMEANS客戶分群
時間序列ARIMA_PLUS預測趨勢
XGBoostBOOSTED_TREE_CLASSIFIER複雜分類
DNNDNN_CLASSIFIER深度學習
AutoML TablesAUTOML_CLASSIFIER自動化 ML

建立與訓練模型語法

建立模型:

CREATE OR REPLACE MODEL `my_dataset.sales_forecast`
OPTIONS(
  model_type='ARIMA_PLUS',
  time_series_timestamp_col='date',
  time_series_data_col='sales',
  time_series_id_col='product_id'
) AS
SELECT
  date,
  product_id,
  sales
FROM
  `my_dataset.sales_data`
WHERE
  date < '2024-01-01'

預測:

SELECT *
FROM ML.FORECAST(
  MODEL `my_dataset.sales_forecast`,
  STRUCT(30 AS horizon, 0.95 AS confidence_level)
)

評估模型:

SELECT *
FROM ML.EVALUATE(MODEL `my_dataset.my_model`)

適用場景與效能考量

適合 BQML:

  • 資料已經在 BigQuery
  • 團隊熟悉 SQL
  • 想快速驗證想法
  • 任務是標準的分類/迴歸

不適合 BQML:

  • 需要最尖端效能
  • 任務需要自訂架構
  • 影像、語音等非結構化資料

費用提示:

  • 訓練費用按處理的資料量計算
  • 複雜模型訓練時間較長
  • 可以設定訓練預算上限

AI/ML 成本規劃與優化

AI 專案很容易超支,做好成本規劃很重要。

訓練 vs 推論費用結構

訓練費用:

  • 一次性費用
  • 按運算時間計費
  • GPU/TPU 費用高
  • 可以用 Spot VM 省錢

推論費用:

  • 持續性費用
  • 按預測次數或時間計費
  • 需要考慮 24/7 運行的成本
  • 批次推論比即時推論便宜

費用比較範例:

項目訓練費用推論費用(每月)
小型模型$50-200$100-300
中型模型$500-2,000$500-1,500
大型模型$5,000-20,000$2,000-10,000

GPU/TPU 選擇與成本比較

GPU 選項:

GPU記憶體適合每小時費用
T416GB推論、小型訓練~$0.35
L424GB平衡型~$0.70
A100 40GB40GB大型訓練~$3.00
A100 80GB80GB超大模型~$4.00
H10080GB最新最強~$8.00

TPU 選項:

TPU適合每小時費用
v2-8中型訓練~$4.50
v3-8大型訓練~$8.00
v5e推論優化~$1.20

選擇建議:

  • 開發階段 → T4 或 L4
  • 正式訓練 → A100
  • TensorFlow 大型模型 → TPU
  • 推論服務 → T4 或 v5e

批次推論降低成本

即時推論 vs 批次推論:

類型延遲成本適合
即時(Online)毫秒級較高即時應用
批次(Batch)分鐘到小時較低大量處理

批次推論使用場景:

  • 每日客戶評分更新
  • 產品推薦預計算
  • 報表數據分析
  • 歷史資料回填

成本差異: 批次推論可以比即時推論便宜 60-80%。


企業 AI 導入最佳實踐

從 POC 到生產,企業 AI 專案怎麼走?

從 POC 到 Production 的路徑

階段 1:探索與定義(2-4 週)

  • 確認業務問題
  • 評估資料可用性
  • 定義成功指標
  • 評估技術可行性

階段 2:POC(4-8 週)

  • 小規模資料驗證
  • 快速建立原型
  • 驗證效果是否達標
  • 估算正式環境成本

階段 3:開發(8-16 週)

  • 完整資料處理流程
  • 模型調優
  • 建立 MLOps 流程
  • 整合現有系統

階段 4:上線(4-8 週)

  • 效能測試
  • 漸進式上線
  • 監控和警報設定
  • 文件和知識轉移

常見失敗原因:

  • 跳過 POC 直接開發
  • 低估資料清理工作
  • 沒有明確的成功指標
  • 沒有 MLOps 導致維護困難

MLOps 與模型監控

MLOps 包含什麼:

  • 版本控制(資料、程式、模型)
  • 自動化訓練 Pipeline
  • 模型部署自動化
  • 持續監控和重訓練

模型監控指標:

  • 預測效能(準確率、召回率)
  • 資料漂移(Data Drift)
  • 概念漂移(Concept Drift)
  • 延遲和吞吐量

Vertex AI Model Monitoring:

from google.cloud import aiplatform

# 啟用監控
endpoint = aiplatform.Endpoint('endpoint-id')
endpoint.update(
    traffic_split={'model-v1': 100},
    enable_model_monitoring=True,
    model_monitoring_config={
        'alert_config': {
            'email_alert_config': {
                'user_emails': ['[email protected]']
            }
        }
    }
)

資料治理與合規考量

資料隱私:

  • 個資去識別化
  • 資料最小化原則
  • 存取權限控制
  • 使用紀錄追蹤

模型合規:

  • 模型可解釋性
  • 偏見檢測和緩解
  • 決策透明度
  • 人工審核機制

GCP 合規工具:

  • Data Loss Prevention(DLP):自動偵測和遮蔽敏感資料
  • Cloud Audit Logs:記錄所有操作
  • VPC Service Controls:網路層面隔離

資安相關細節請見「GCP 資安與 Cloud Armor 防護完整指南」。


想在企業導入 AI?

從 Gemini 到自建 LLM,選擇很多但坑也很多。

預約 AI 導入諮詢,讓有經驗的人幫你避坑。

CloudInsight 的 AI 導入服務:

  • 需求評估:釐清業務需求,確認 AI 是否是最佳解
  • 技術選型:用現成 API 還是自己訓練?
  • POC 規劃:快速驗證可行性和效果
  • 成本估算:訓練、推論、維護的完整費用估算
  • 架構設計:從資料到部署的完整方案

結論:建構你的 GCP AI 策略

GCP 的 AI 服務很完整,關鍵是找到適合你的切入點。

選擇建議:

你的情況建議方案
想快速試試 AIGemini API
有資料但沒 ML 團隊AutoML
資料在 BigQueryBigQuery ML
有 ML 團隊想要更多控制Vertex AI 自訂訓練
需要完整 MLOpsVertex AI Pipelines

給不同角色的建議:

給業務主管:

  • 先用 Gemini 做內部效率工具
  • 從小專案累積經驗
  • 成功後再擴大投資

給工程師:

  • 熟悉 Vertex AI 平台
  • 練習 AutoML 和自訂訓練
  • 了解 MLOps 最佳實踐

給資料分析師:

  • 用 BigQuery ML 入門
  • 逐步學習 AutoML
  • 跟工程團隊協作

AI 導入是一個旅程,不是一個專案。從小開始,持續學習,逐步擴大規模。


延伸閱讀


圖片說明

插圖:GCP AI 服務分層架構圖

場景描述: 四層架構圖,從下到上依序是「基礎設施層」(GPU、TPU)、「資料層」(BigQuery、Cloud Storage)、「平台層」(Vertex AI)、「應用層」(Gemini API、Agent Builder)。每層用不同深淺的藍色表示,層與層之間有連接線。

視覺重點:

  • 主要內容清晰呈現

必須出現的元素:

  • 依據描述中的關鍵元素

需要顯示的中文字:

顏色調性: 專業、清晰

避免元素: 抽象圖形、齒輪、發光特效

Slug: gcp-ai-services-layered-architecture


插圖:Vertex AI 功能總覽

場景描述: 蜂巢式(Hexagon)的功能區塊圖,中央是 Vertex AI logo,周圍環繞六個六邊形區塊,分別標示 Workbench、Training、Prediction、AutoML、Pipelines、Feature Store。各區塊用不同顏色區分功能類型。

視覺重點:

  • 主要內容清晰呈現

必須出現的元素:

  • 依據描述中的關鍵元素

需要顯示的中文字:

顏色調性: 專業、清晰

避免元素: 抽象圖形、齒輪、發光特效

Slug: vertex-ai-features-hexagon-overview


插圖:AutoML vs 自訂訓練決策矩陣

場景描述: 二維矩陣圖,X 軸是「ML 專業程度」(低到高),Y 軸是「自訂需求」(低到高)。左下象限標示 AutoML(綠色),右上象限標示自訂訓練(藍色),右下象限標示 BigQuery ML(橘色),左上象限標示預訓練 API(灰色)。

視覺重點:

  • 主要內容清晰呈現

必須出現的元素:

  • 依據描述中的關鍵元素

需要顯示的中文字:

顏色調性: 專業、清晰

避免元素: 抽象圖形、齒輪、發光特效

Slug: automl-custom-training-decision-matrix


插圖:AI 專案生命週期流程圖

場景描述: 環形流程圖顯示 AI 專案的生命週期。從「業務問題」開始,順時針依序經過「資料收集」「模型開發」「模型部署」「監控維護」,然後回到「業務問題」形成循環。每個階段用不同顏色的圓弧表示,中間標示「持續改進」。

視覺重點:

  • 主要內容清晰呈現

必須出現的元素:

  • 依據描述中的關鍵元素

需要顯示的中文字:

顏色調性: 專業、清晰

避免元素: 抽象圖形、齒輪、發光特效

Slug: ai-project-lifecycle-circular-diagram


參考資料

  1. Google Cloud,《Vertex AI Documentation》(2024)
  2. Google Cloud,《AutoML Documentation》(2024)
  3. Google Cloud,《Gemini API Documentation》(2024)
  4. Google Cloud,《BigQuery ML Documentation》(2024)
  5. Google Cloud,《MLOps: Continuous delivery and automation pipelines in machine learning》(2024)

需要專業的雲端建議?

無論您正在評估雲平台、優化現有架構,或尋找節費方案,我們都能提供協助

預約免費諮詢

相關文章