返回首頁OpenShift

OpenShift AI：企業 AI/ML 平台完整指南【2026】

2/4/202614 min 分鐘閱讀

#OpenShift#AI#ML#Lightspeed#MLOps#LLM#vLLM#GPU

OpenShift AI：企業 AI/ML 平台完整指南

AI 很火，但在企業裡跑 AI 跟在 Jupyter Notebook 玩 AI 完全是兩回事。

資料安全、模型治理、GPU 調度、版本控制、CI/CD⋯⋯每一個都是坑。OpenShift AI 試圖把這些坑填起來，提供一個企業級的 AI/ML 平台。

2026 年關鍵更新：

LLM 推論服務：原生支援 vLLM、TGI 等推論引擎
GPU 調度強化：NVIDIA H100、A100、L40S 最佳化
KServe 2.0：模型服務更穩定、支援 Transformer 模型
RAG Pipeline：整合 Milvus、pgvector 向量資料庫
Lightspeed 正式版：AI 輔助 OpenShift 運維

本文將完整介紹 OpenShift AI，從平台功能到實際應用，幫助你評估是否適合你的 AI 工作負載。如果你對 OpenShift 還不熟悉，建議先閱讀 OpenShift 完整指南。對於通用 LLM 部署，可參考 LLM API 與本地部署指南。

OpenShift AI 簡介

什麼是 OpenShift AI？

OpenShift AI 是 Red Hat 推出的企業級 AI/ML 平台，前身是 Red Hat OpenShift Data Science（RHODS）。

它在 OpenShift 容器平台上，提供完整的機器學習生命週期支援：

資料準備與探索
模型開發與訓練
模型部署與服務
模型監控與治理

產品定位

OpenShift AI 不是要跟 AWS SageMaker 或 GCP Vertex AI 競爭「全託管」市場。它的定位是：

「在你自己的基礎設施上，建立企業級的 AI/ML 平台」

適合：

有資料主權需求的組織
想在私有雲或混合雲跑 AI 的企業
已經用 OpenShift 的團隊

核心功能總覽（2026 更新）

功能	說明	2026 更新
Data Science Project	團隊協作的工作空間	整合 GitOps
Workbenches	Jupyter Notebook 開發環境	支援 VSCode Server
Model Serving	模型部署與推論服務	vLLM、TGI 原生支援
Pipelines	ML Pipeline 編排	Kubeflow Pipelines 2.0
Model Registry	模型版本管理	正式 GA
Lightspeed	AI 輔助運維	正式 GA
Distributed Training	分散式訓練	Ray、PyTorch DDP
RAG Integration	檢索增強生成	Milvus、pgvector

OpenShift AI 架構

平台架構

OpenShift AI 建立在 OpenShift 之上：

┌─────────────────────────────────────────────────┐
│                 OpenShift AI                     │
│  ┌─────────┐ ┌─────────┐ ┌─────────┐           │
│  │Workbench│ │ Serving │ │Pipeline │           │
│  └─────────┘ └─────────┘ └─────────┘           │
├─────────────────────────────────────────────────┤
│                  OpenShift                       │
│  ┌─────────┐ ┌─────────┐ ┌─────────┐           │
│  │   GPU   │ │ Storage │ │ Network │           │
│  │ Support │ │  (ODF)  │ │  (SDN)  │           │
│  └─────────┘ └─────────┘ └─────────┘           │
├─────────────────────────────────────────────────┤
│              基礎設施（雲端/裸機）                 │
└─────────────────────────────────────────────────┘

核心組件

1. Dashboard

Web UI 入口，提供：

Data Science Project 管理
Workbench 建立與存取
Model Server 管理
Pipeline 執行監控

2. Notebook Controller

管理 Jupyter Notebook 環境：

多種預設映像檔（PyTorch、TensorFlow、標準 DS）
自訂映像檔支援
GPU 分配

3. Model Mesh / KServe

模型推論服務：

支援多種模型格式
自動擴展
A/B 測試

4. Data Science Pipelines

基於 Kubeflow Pipelines：

視覺化 Pipeline 編輯
排程執行
實驗追蹤

與 OpenShift 整合

OpenShift AI 深度整合 OpenShift 功能：

OpenShift 功能	OpenShift AI 用途
RBAC	控制誰能存取哪些專案
Network Policy	隔離 ML 工作負載
PVC/ODF	資料集和模型儲存
GPU Operator	GPU 資源管理
Monitoring	模型服務監控

AI/ML 工作流程

完整工作流程

OpenShift AI 支援端到端的 ML 工作流程：

資料準備 → 特徵工程 → 模型訓練 → 模型評估 → 模型部署 → 監控回饋
   │          │          │          │          │         │
   ▼          ▼          ▼          ▼          ▼         ▼
Workbench  Workbench  Training   Registry   Serving  Monitoring
           + Pipeline   Job                 (KServe)

資料準備

在 Workbench 中進行資料探索和準備：

# 連接資料來源
import boto3
from sqlalchemy import create_engine

# S3 資料
s3 = boto3.client('s3',
    endpoint_url=os.environ['S3_ENDPOINT'],
    aws_access_key_id=os.environ['AWS_ACCESS_KEY_ID'],
    aws_secret_access_key=os.environ['AWS_SECRET_ACCESS_KEY']
)

# 資料庫
engine = create_engine(os.environ['DATABASE_URL'])
df = pd.read_sql("SELECT * FROM training_data", engine)

資料可以存在：

OpenShift Data Foundation (ODF)
S3 相容儲存
外部資料庫

模型訓練

單機訓練：

在 Workbench 直接訓練（適合小模型）：

import torch
from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,
    per_device_train_batch_size=16,
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
)

trainer.train()

分散式訓練：

大型模型使用 Kubernetes 原生的分散式訓練：

apiVersion: kubeflow.org/v1
kind: PyTorchJob
metadata:
  name: distributed-training
spec:
  pytorchReplicaSpecs:
    Master:
      replicas: 1
      template:
        spec:
          containers:
          - name: pytorch
            image: pytorch/pytorch:latest
            resources:
              limits:
                nvidia.com/gpu: 1
    Worker:
      replicas: 4
      template:
        spec:
          containers:
          - name: pytorch
            image: pytorch/pytorch:latest
            resources:
              limits:
                nvidia.com/gpu: 1

Model Serving

訓練好的模型可以透過 KServe 部署：

apiVersion: serving.kserve.io/v1beta1
kind: InferenceService
metadata:
  name: my-model
spec:
  predictor:
    model:
      modelFormat:
        name: sklearn
      storageUri: "s3://models/my-model"

支援的模型格式：

TensorFlow
PyTorch
ONNX
scikit-learn
XGBoost
LightGBM

OpenShift Lightspeed

Lightspeed 是 OpenShift AI 的亮點功能，讓管理員用自然語言操作叢集。

功能介紹

Lightspeed 是整合在 OpenShift Console 中的 AI 助手：

用自然語言查詢叢集狀態
解釋錯誤訊息
建議解決方案
生成 YAML 設定

使用案例

查詢叢集狀態：

你：顯示過去一小時 CPU 使用率最高的 5 個 Pod

Lightspeed：根據 Prometheus 指標，過去一小時 CPU 使用率最高的 Pod 是：
1. ml-training-job-xyz (namespace: ai-project) - 3.2 cores
2. data-pipeline-abc (namespace: data-eng) - 2.8 cores
...

排查問題：

你：為什麼 my-deployment 的 Pod 一直 CrashLoopBackOff？

Lightspeed：我查看了 Pod 的日誌和事件，發現以下問題：
1. 容器在啟動時找不到環境變數 DATABASE_URL
2. 建議檢查 ConfigMap 或 Secret 是否正確設定
...

生成設定：

你：幫我建立一個 HPA，當 CPU 超過 70% 時擴展 my-deployment，最多 10 個副本

Lightspeed：這是建議的 HorizontalPodAutoscaler 設定：
```yaml
apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: my-deployment-hpa
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: my-deployment
  minReplicas: 1
  maxReplicas: 10
  metrics:
  - type: Resource
    resource:
      name: cpu
      target:
        type: Utilization
        averageUtilization: 70

安全考量

Lightspeed 的設計考慮企業安全需求：

可以使用 Red Hat 託管的 LLM
也可以連接自建的 LLM
敏感資料不會送到外部（可設定）
有稽核日誌

想用 OpenShift Lightspeed 提升維運效率？預約 AI 導入諮詢，讓我們評估你的應用場景。

GPU 支援

AI 工作負載少不了 GPU。OpenShift AI 透過 NVIDIA GPU Operator 提供完整支援。

NVIDIA GPU Operator

GPU Operator 自動處理：

驅動程式安裝
CUDA Toolkit
Device Plugin
GPU Monitoring

安裝 GPU Operator：

apiVersion: operators.coreos.com/v1alpha1
kind: Subscription
metadata:
  name: gpu-operator
  namespace: nvidia-gpu-operator
spec:
  channel: stable
  name: gpu-operator-certified
  source: certified-operators
  sourceNamespace: openshift-marketplace

GPU 資源調度

在 Workbench 或 Pod 中請求 GPU：

resources:
  limits:
    nvidia.com/gpu: 1

OpenShift 會自動調度到有 GPU 的節點。

多 GPU 訓練

分散式訓練可以使用多個 GPU：

resources:
  limits:
    nvidia.com/gpu: 4  # 單節點多 GPU

或跨節點：

# PyTorchJob 跨節點分散式
spec:
  pytorchReplicaSpecs:
    Worker:
      replicas: 8  # 8 個 Worker，每個 1 GPU

GPU 監控

GPU Operator 自動整合監控：

GPU 使用率
GPU 記憶體
GPU 溫度
功耗

可在 OpenShift Monitoring 的 Grafana 看到相關指標。

開發環境

Jupyter Notebook 整合

OpenShift AI 的 Workbench 基於 Jupyter：

預設映像檔：

Standard Data Science（通用）
PyTorch
TensorFlow
CUDA（GPU 環境）

自訂映像檔：

可以建立自己的 Notebook 映像檔：

FROM quay.io/opendatahub/notebooks:jupyter-pytorch-2024.1

# 安裝額外套件
RUN pip install transformers datasets accelerate

# 複製自訂設定
COPY jupyter_notebook_config.py /opt/app-root/etc/

VS Code Server

除了 Jupyter，也支援 VS Code Server：

完整的 IDE 體驗
擴充套件支援
終端機存取

環境變數與 Secret

安全地管理 API Key 和認證資訊：

# 建立 Secret
apiVersion: v1
kind: Secret
metadata:
  name: ml-credentials
stringData:
  HUGGINGFACE_TOKEN: "hf_xxx"
  S3_ACCESS_KEY: "xxx"

在 Workbench 中自動注入。

MLOps 實踐

模型版本控制

使用 Data Science Pipelines 追蹤模型版本：

from kfp import dsl

@dsl.component
def train_model(data_path: str, model_output: str):
    # 訓練邏輯
    model.save(model_output)

@dsl.component
def evaluate_model(model_path: str) -> float:
    # 評估邏輯
    return accuracy

@dsl.pipeline
def ml_pipeline():
    train = train_model(data_path="s3://data", model_output="s3://models/v1")
    evaluate = evaluate_model(model_path=train.outputs['model_output'])

CI/CD for ML

整合 OpenShift Pipelines（Tekton）：

apiVersion: tekton.dev/v1beta1
kind: Pipeline
metadata:
  name: ml-cicd
spec:
  tasks:
  - name: fetch-code
    taskRef:
      name: git-clone
  - name: run-tests
    taskRef:
      name: pytest
    runAfter: [fetch-code]
  - name: train-model
    taskRef:
      name: ml-training
    runAfter: [run-tests]
  - name: deploy-model
    taskRef:
      name: kserve-deploy
    runAfter: [train-model]

A/B 測試

KServe 支援 Canary 部署：

apiVersion: serving.kserve.io/v1beta1
kind: InferenceService
metadata:
  name: my-model
spec:
  predictor:
    canaryTrafficPercent: 10
    model:
      modelFormat:
        name: sklearn
      storageUri: "s3://models/v2"  # 新版本

10% 流量導到新模型，驗證後再全量切換。

安全與合規

資料安全

資料隔離：

每個 Data Science Project 是獨立的 Namespace
可用 Network Policy 限制網路存取
資料儲存在 PVC，可加密

存取控制：

RBAC 控制誰能存取哪些專案
可整合企業身份系統（LDAP/AD）

模型安全

模型存取控制：

Model Server 可設定認證
限制誰能呼叫推論 API

模型稽核：

Pipeline 執行記錄
模型版本追蹤
推論日誌

合規考量

OpenShift AI 幫助滿足合規需求：

需求	解決方案
資料落地	部署在自己的基礎設施
存取稽核	OpenShift 稽核日誌
模型治理	Model Registry + Pipeline
可解釋性	整合 AI Explainability 工具

部署與設定

安裝 OpenShift AI

從 OperatorHub 安裝：

搜尋 Red Hat OpenShift AI
選擇安裝到 redhat-ods-operator namespace
等待 Operator 就緒

建立 Data Science Cluster

apiVersion: datasciencecluster.opendatahub.io/v1
kind: DataScienceCluster
metadata:
  name: default-dsc
spec:
  components:
    dashboard:
      managementState: Managed
    workbenches:
      managementState: Managed
    datasciencepipelines:
      managementState: Managed
    modelmeshserving:
      managementState: Managed
    kserve:
      managementState: Managed

資源配置

建議的資源配置：

組件	CPU	Memory	說明
Dashboard	1	2Gi	低負載
Workbench（小）	2	8Gi	輕量開發
Workbench（大）	8	32Gi	模型訓練
Model Server	依模型而定	依模型而定	需評估

常見問題 FAQ

Q1：OpenShift AI 跟 AWS SageMaker 有什麼不同？

主要差異是部署位置。SageMaker 是 AWS 的全託管服務，資料和模型都在 AWS。OpenShift AI 可以部署在任何地方——公有雲、私有雲、自建機房。適合有資料主權需求或已經用 OpenShift 的企業。

Q2：需要多少 GPU 才能跑 OpenShift AI？

不一定需要 GPU。資料探索、小型模型訓練可以用 CPU。但如果要訓練深度學習模型或做即時推論，GPU 會快很多。建議：開發測試環境 1-2 張 GPU，生產環境依工作負載規劃。

Q3：OpenShift Lightspeed 會把我的資料送到外部嗎？

可以控制。Lightspeed 支援多種 LLM 後端：（1）Red Hat 託管的 LLM（資料會經過 Red Hat）；（2）自建的 LLM（資料完全不出去）。企業可以根據安全需求選擇。

Q4：現有的 Jupyter Notebook 可以直接用嗎？

大部分可以。OpenShift AI 的 Workbench 基於標準 Jupyter，你的 notebook 檔案應該可以直接跑。但如果有特殊套件需求，可能需要用自訂映像檔。

Q5：OpenShift AI 授權怎麼算？

OpenShift AI 有獨立的訂閱授權，不包含在 OpenShift Container Platform 中。具體費用需要聯繫 Red Hat 或合作夥伴。通常按使用的資源（Core）計價。

想在 OpenShift 上跑 AI 工作負載？

從 GPU 設定到 MLOps 流程，選擇很多但坑也很多。

預約 AI 導入諮詢，讓有經驗的人幫你避坑。

參考資源

需要專業的雲端建議？

無論您正在評估雲平台、優化現有架構，或尋找節費方案，我們都能提供協助

預約免費諮詢

OpenShift