返回首頁OpenShift

OpenShift AI:企業 AI/ML 平台完整指南【2026】

15 min 分鐘閱讀
#OpenShift#AI#ML#Lightspeed#MLOps#LLM#vLLM#GPU

OpenShift AI:企業 AI/ML 平台完整指南【2026】

OpenShift AI:企業 AI/ML 平台完整指南

AI 很火,但在企業裡跑 AI 跟在 Jupyter Notebook 玩 AI 完全是兩回事。

資料安全、模型治理、GPU 調度、版本控制、CI/CD⋯⋯每一個都是坑。OpenShift AI 試圖把這些坑填起來,提供一個企業級的 AI/ML 平台。

2026 年關鍵更新

  • LLM 推論服務:原生支援 vLLM、TGI 等推論引擎
  • GPU 調度強化:NVIDIA H100、A100、L40S 最佳化
  • KServe 2.0:模型服務更穩定、支援 Transformer 模型
  • RAG Pipeline:整合 Milvus、pgvector 向量資料庫
  • Lightspeed 正式版:AI 輔助 OpenShift 運維

本文將完整介紹 OpenShift AI,從平台功能到實際應用,幫助你評估是否適合你的 AI 工作負載。如果你對 OpenShift 還不熟悉,建議先閱讀 OpenShift 完整指南。對於通用 LLM 部署,可參考 LLM API 與本地部署指南


OpenShift AI 簡介

什麼是 OpenShift AI?

OpenShift AI 是 Red Hat 推出的企業級 AI/ML 平台,前身是 Red Hat OpenShift Data Science(RHODS)。

它在 OpenShift 容器平台上,提供完整的機器學習生命週期支援:

  • 資料準備與探索
  • 模型開發與訓練
  • 模型部署與服務
  • 模型監控與治理

產品定位

OpenShift AI 不是要跟 AWS SageMaker 或 GCP Vertex AI 競爭「全託管」市場。它的定位是:

「在你自己的基礎設施上,建立企業級的 AI/ML 平台」

適合:

  • 有資料主權需求的組織
  • 想在私有雲或混合雲跑 AI 的企業
  • 已經用 OpenShift 的團隊

核心功能總覽(2026 更新)

功能說明2026 更新
Data Science Project團隊協作的工作空間整合 GitOps
WorkbenchesJupyter Notebook 開發環境支援 VSCode Server
Model Serving模型部署與推論服務vLLM、TGI 原生支援
PipelinesML Pipeline 編排Kubeflow Pipelines 2.0
Model Registry模型版本管理正式 GA
LightspeedAI 輔助運維正式 GA
Distributed Training分散式訓練Ray、PyTorch DDP
RAG Integration檢索增強生成Milvus、pgvector

插圖:展示 OpenShift AI 的主要功能模組。中央是「Op...

場景描述: 展示 OpenShift AI 的主要功能模組。中央是「OpenShift AI」核心,周圍環繞六個功能模組:Workbenches(Jupyter)、Model Training、Model Serving、Pipelines、Model Registry、Lightspeed。每個模組用圖示和簡短說明表示。

視覺重點:

  • 主要內容清晰呈現

必須出現的元素:

  • 依據描述

需要顯示的中文字:

顏色調性: 專業、清晰

避免元素: 抽象圖形、齒輪

Slug: openshift-ai-core-features


OpenShift AI 架構

平台架構

OpenShift AI 建立在 OpenShift 之上:

┌─────────────────────────────────────────────────┐
│                 OpenShift AI                     │
│  ┌─────────┐ ┌─────────┐ ┌─────────┐           │
│  │Workbench│ │ Serving │ │Pipeline │           │
│  └─────────┘ └─────────┘ └─────────┘           │
├─────────────────────────────────────────────────┤
│                  OpenShift                       │
│  ┌─────────┐ ┌─────────┐ ┌─────────┐           │
│  │   GPU   │ │ Storage │ │ Network │           │
│  │ Support │ │  (ODF)  │ │  (SDN)  │           │
│  └─────────┘ └─────────┘ └─────────┘           │
├─────────────────────────────────────────────────┤
│              基礎設施(雲端/裸機)                 │
└─────────────────────────────────────────────────┘

核心組件

1. Dashboard

Web UI 入口,提供:

  • Data Science Project 管理
  • Workbench 建立與存取
  • Model Server 管理
  • Pipeline 執行監控

2. Notebook Controller

管理 Jupyter Notebook 環境:

  • 多種預設映像檔(PyTorch、TensorFlow、標準 DS)
  • 自訂映像檔支援
  • GPU 分配

3. Model Mesh / KServe

模型推論服務:

  • 支援多種模型格式
  • 自動擴展
  • A/B 測試

4. Data Science Pipelines

基於 Kubeflow Pipelines:

  • 視覺化 Pipeline 編輯
  • 排程執行
  • 實驗追蹤

與 OpenShift 整合

OpenShift AI 深度整合 OpenShift 功能:

OpenShift 功能OpenShift AI 用途
RBAC控制誰能存取哪些專案
Network Policy隔離 ML 工作負載
PVC/ODF資料集和模型儲存
GPU OperatorGPU 資源管理
Monitoring模型服務監控

AI/ML 工作流程

完整工作流程

OpenShift AI 支援端到端的 ML 工作流程:

資料準備 → 特徵工程 → 模型訓練 → 模型評估 → 模型部署 → 監控回饋
   │          │          │          │          │         │
   ▼          ▼          ▼          ▼          ▼         ▼
Workbench  Workbench  Training   Registry   Serving  Monitoring
           + Pipeline   Job                 (KServe)

資料準備

在 Workbench 中進行資料探索和準備:

# 連接資料來源
import boto3
from sqlalchemy import create_engine

# S3 資料
s3 = boto3.client('s3',
    endpoint_url=os.environ['S3_ENDPOINT'],
    aws_access_key_id=os.environ['AWS_ACCESS_KEY_ID'],
    aws_secret_access_key=os.environ['AWS_SECRET_ACCESS_KEY']
)

# 資料庫
engine = create_engine(os.environ['DATABASE_URL'])
df = pd.read_sql("SELECT * FROM training_data", engine)

資料可以存在:

  • OpenShift Data Foundation (ODF)
  • S3 相容儲存
  • 外部資料庫

模型訓練

單機訓練

在 Workbench 直接訓練(適合小模型):

import torch
from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,
    per_device_train_batch_size=16,
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
)

trainer.train()

分散式訓練

大型模型使用 Kubernetes 原生的分散式訓練:

apiVersion: kubeflow.org/v1
kind: PyTorchJob
metadata:
  name: distributed-training
spec:
  pytorchReplicaSpecs:
    Master:
      replicas: 1
      template:
        spec:
          containers:
          - name: pytorch
            image: pytorch/pytorch:latest
            resources:
              limits:
                nvidia.com/gpu: 1
    Worker:
      replicas: 4
      template:
        spec:
          containers:
          - name: pytorch
            image: pytorch/pytorch:latest
            resources:
              limits:
                nvidia.com/gpu: 1

Model Serving

訓練好的模型可以透過 KServe 部署:

apiVersion: serving.kserve.io/v1beta1
kind: InferenceService
metadata:
  name: my-model
spec:
  predictor:
    model:
      modelFormat:
        name: sklearn
      storageUri: "s3://models/my-model"

支援的模型格式:

  • TensorFlow
  • PyTorch
  • ONNX
  • scikit-learn
  • XGBoost
  • LightGBM

OpenShift Lightspeed

Lightspeed 是 OpenShift AI 的亮點功能,讓管理員用自然語言操作叢集。

功能介紹

Lightspeed 是整合在 OpenShift Console 中的 AI 助手:

  • 用自然語言查詢叢集狀態
  • 解釋錯誤訊息
  • 建議解決方案
  • 生成 YAML 設定

使用案例

查詢叢集狀態

你:顯示過去一小時 CPU 使用率最高的 5 個 Pod

Lightspeed:根據 Prometheus 指標,過去一小時 CPU 使用率最高的 Pod 是:
1. ml-training-job-xyz (namespace: ai-project) - 3.2 cores
2. data-pipeline-abc (namespace: data-eng) - 2.8 cores
...

排查問題

你:為什麼 my-deployment 的 Pod 一直 CrashLoopBackOff?

Lightspeed:我查看了 Pod 的日誌和事件,發現以下問題:
1. 容器在啟動時找不到環境變數 DATABASE_URL
2. 建議檢查 ConfigMap 或 Secret 是否正確設定
...

生成設定

你:幫我建立一個 HPA,當 CPU 超過 70% 時擴展 my-deployment,最多 10 個副本

Lightspeed:這是建議的 HorizontalPodAutoscaler 設定:
```yaml
apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: my-deployment-hpa
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: my-deployment
  minReplicas: 1
  maxReplicas: 10
  metrics:
  - type: Resource
    resource:
      name: cpu
      target:
        type: Utilization
        averageUtilization: 70

安全考量

Lightspeed 的設計考慮企業安全需求:

  • 可以使用 Red Hat 託管的 LLM
  • 也可以連接自建的 LLM
  • 敏感資料不會送到外部(可設定)
  • 有稽核日誌

想用 OpenShift Lightspeed 提升維運效率?預約 AI 導入諮詢,讓我們評估你的應用場景。


GPU 支援

AI 工作負載少不了 GPU。OpenShift AI 透過 NVIDIA GPU Operator 提供完整支援。

NVIDIA GPU Operator

GPU Operator 自動處理:

  • 驅動程式安裝
  • CUDA Toolkit
  • Device Plugin
  • GPU Monitoring

安裝 GPU Operator:

apiVersion: operators.coreos.com/v1alpha1
kind: Subscription
metadata:
  name: gpu-operator
  namespace: nvidia-gpu-operator
spec:
  channel: stable
  name: gpu-operator-certified
  source: certified-operators
  sourceNamespace: openshift-marketplace

GPU 資源調度

在 Workbench 或 Pod 中請求 GPU:

resources:
  limits:
    nvidia.com/gpu: 1

OpenShift 會自動調度到有 GPU 的節點。

多 GPU 訓練

分散式訓練可以使用多個 GPU:

resources:
  limits:
    nvidia.com/gpu: 4  # 單節點多 GPU

或跨節點:

# PyTorchJob 跨節點分散式
spec:
  pytorchReplicaSpecs:
    Worker:
      replicas: 8  # 8 個 Worker,每個 1 GPU

GPU 監控

GPU Operator 自動整合監控:

  • GPU 使用率
  • GPU 記憶體
  • GPU 溫度
  • 功耗

可在 OpenShift Monitoring 的 Grafana 看到相關指標。

插圖:展示 NVIDIA GPU Operator 在 OpenS...

場景描述: 展示 NVIDIA GPU Operator 在 OpenShift 中的架構。從底層硬體(GPU)開始,往上是驅動程式層、CUDA 層、Device Plugin 層、最上是 AI 工作負載(Workbench、Training Job、Model Serving)。每層用不同顏色區分,標註 GPU Operator 管理的範圍。

視覺重點:

  • 主要內容清晰呈現

必須出現的元素:

  • 依據描述

需要顯示的中文字:

顏色調性: 專業、清晰

避免元素: 抽象圖形、齒輪

Slug: openshift-nvidia-gpu-operator-stack


開發環境

Jupyter Notebook 整合

OpenShift AI 的 Workbench 基於 Jupyter:

預設映像檔

  • Standard Data Science(通用)
  • PyTorch
  • TensorFlow
  • CUDA(GPU 環境)

自訂映像檔

可以建立自己的 Notebook 映像檔:

FROM quay.io/opendatahub/notebooks:jupyter-pytorch-2024.1

# 安裝額外套件
RUN pip install transformers datasets accelerate

# 複製自訂設定
COPY jupyter_notebook_config.py /opt/app-root/etc/

VS Code Server

除了 Jupyter,也支援 VS Code Server:

  • 完整的 IDE 體驗
  • 擴充套件支援
  • 終端機存取

環境變數與 Secret

安全地管理 API Key 和認證資訊:

# 建立 Secret
apiVersion: v1
kind: Secret
metadata:
  name: ml-credentials
stringData:
  HUGGINGFACE_TOKEN: "hf_xxx"
  S3_ACCESS_KEY: "xxx"

在 Workbench 中自動注入。


MLOps 實踐

模型版本控制

使用 Data Science Pipelines 追蹤模型版本:

from kfp import dsl

@dsl.component
def train_model(data_path: str, model_output: str):
    # 訓練邏輯
    model.save(model_output)

@dsl.component
def evaluate_model(model_path: str) -> float:
    # 評估邏輯
    return accuracy

@dsl.pipeline
def ml_pipeline():
    train = train_model(data_path="s3://data", model_output="s3://models/v1")
    evaluate = evaluate_model(model_path=train.outputs['model_output'])

CI/CD for ML

整合 OpenShift Pipelines(Tekton):

apiVersion: tekton.dev/v1beta1
kind: Pipeline
metadata:
  name: ml-cicd
spec:
  tasks:
  - name: fetch-code
    taskRef:
      name: git-clone
  - name: run-tests
    taskRef:
      name: pytest
    runAfter: [fetch-code]
  - name: train-model
    taskRef:
      name: ml-training
    runAfter: [run-tests]
  - name: deploy-model
    taskRef:
      name: kserve-deploy
    runAfter: [train-model]

A/B 測試

KServe 支援 Canary 部署:

apiVersion: serving.kserve.io/v1beta1
kind: InferenceService
metadata:
  name: my-model
spec:
  predictor:
    canaryTrafficPercent: 10
    model:
      modelFormat:
        name: sklearn
      storageUri: "s3://models/v2"  # 新版本

10% 流量導到新模型,驗證後再全量切換。


安全與合規

資料安全

資料隔離

  • 每個 Data Science Project 是獨立的 Namespace
  • 可用 Network Policy 限制網路存取
  • 資料儲存在 PVC,可加密

存取控制

  • RBAC 控制誰能存取哪些專案
  • 可整合企業身份系統(LDAP/AD)

模型安全

模型存取控制

  • Model Server 可設定認證
  • 限制誰能呼叫推論 API

模型稽核

  • Pipeline 執行記錄
  • 模型版本追蹤
  • 推論日誌

合規考量

OpenShift AI 幫助滿足合規需求:

需求解決方案
資料落地部署在自己的基礎設施
存取稽核OpenShift 稽核日誌
模型治理Model Registry + Pipeline
可解釋性整合 AI Explainability 工具

部署與設定

安裝 OpenShift AI

從 OperatorHub 安裝:

  1. 搜尋 Red Hat OpenShift AI
  2. 選擇安裝到 redhat-ods-operator namespace
  3. 等待 Operator 就緒

建立 Data Science Cluster

apiVersion: datasciencecluster.opendatahub.io/v1
kind: DataScienceCluster
metadata:
  name: default-dsc
spec:
  components:
    dashboard:
      managementState: Managed
    workbenches:
      managementState: Managed
    datasciencepipelines:
      managementState: Managed
    modelmeshserving:
      managementState: Managed
    kserve:
      managementState: Managed

資源配置

建議的資源配置:

組件CPUMemory說明
Dashboard12Gi低負載
Workbench(小)28Gi輕量開發
Workbench(大)832Gi模型訓練
Model Server依模型而定依模型而定需評估

常見問題 FAQ

Q1:OpenShift AI 跟 AWS SageMaker 有什麼不同?

主要差異是部署位置。SageMaker 是 AWS 的全託管服務,資料和模型都在 AWS。OpenShift AI 可以部署在任何地方——公有雲、私有雲、自建機房。適合有資料主權需求或已經用 OpenShift 的企業。

Q2:需要多少 GPU 才能跑 OpenShift AI?

不一定需要 GPU。資料探索、小型模型訓練可以用 CPU。但如果要訓練深度學習模型或做即時推論,GPU 會快很多。建議:開發測試環境 1-2 張 GPU,生產環境依工作負載規劃。

Q3:OpenShift Lightspeed 會把我的資料送到外部嗎?

可以控制。Lightspeed 支援多種 LLM 後端:(1)Red Hat 託管的 LLM(資料會經過 Red Hat);(2)自建的 LLM(資料完全不出去)。企業可以根據安全需求選擇。

Q4:現有的 Jupyter Notebook 可以直接用嗎?

大部分可以。OpenShift AI 的 Workbench 基於標準 Jupyter,你的 notebook 檔案應該可以直接跑。但如果有特殊套件需求,可能需要用自訂映像檔。

Q5:OpenShift AI 授權怎麼算?

OpenShift AI 有獨立的訂閱授權,不包含在 OpenShift Container Platform 中。具體費用需要聯繫 Red Hat 或合作夥伴。通常按使用的資源(Core)計價。


想在 OpenShift 上跑 AI 工作負載?

從 GPU 設定到 MLOps 流程,選擇很多但坑也很多。

預約 AI 導入諮詢,讓有經驗的人幫你避坑。


參考資源

需要專業的雲端建議?

無論您正在評估雲平台、優化現有架構,或尋找節費方案,我們都能提供協助

預約免費諮詢

相關文章