OpenShift AI:企業 AI/ML 平台完整指南【2026】

OpenShift AI:企業 AI/ML 平台完整指南
AI 很火,但在企業裡跑 AI 跟在 Jupyter Notebook 玩 AI 完全是兩回事。
資料安全、模型治理、GPU 調度、版本控制、CI/CD⋯⋯每一個都是坑。OpenShift AI 試圖把這些坑填起來,提供一個企業級的 AI/ML 平台。
2026 年關鍵更新:
- LLM 推論服務:原生支援 vLLM、TGI 等推論引擎
- GPU 調度強化:NVIDIA H100、A100、L40S 最佳化
- KServe 2.0:模型服務更穩定、支援 Transformer 模型
- RAG Pipeline:整合 Milvus、pgvector 向量資料庫
- Lightspeed 正式版:AI 輔助 OpenShift 運維
本文將完整介紹 OpenShift AI,從平台功能到實際應用,幫助你評估是否適合你的 AI 工作負載。如果你對 OpenShift 還不熟悉,建議先閱讀 OpenShift 完整指南。對於通用 LLM 部署,可參考 LLM API 與本地部署指南。
OpenShift AI 簡介
什麼是 OpenShift AI?
OpenShift AI 是 Red Hat 推出的企業級 AI/ML 平台,前身是 Red Hat OpenShift Data Science(RHODS)。
它在 OpenShift 容器平台上,提供完整的機器學習生命週期支援:
- 資料準備與探索
- 模型開發與訓練
- 模型部署與服務
- 模型監控與治理
產品定位
OpenShift AI 不是要跟 AWS SageMaker 或 GCP Vertex AI 競爭「全託管」市場。它的定位是:
「在你自己的基礎設施上,建立企業級的 AI/ML 平台」
適合:
- 有資料主權需求的組織
- 想在私有雲或混合雲跑 AI 的企業
- 已經用 OpenShift 的團隊
核心功能總覽(2026 更新)
| 功能 | 說明 | 2026 更新 |
|---|---|---|
| Data Science Project | 團隊協作的工作空間 | 整合 GitOps |
| Workbenches | Jupyter Notebook 開發環境 | 支援 VSCode Server |
| Model Serving | 模型部署與推論服務 | vLLM、TGI 原生支援 |
| Pipelines | ML Pipeline 編排 | Kubeflow Pipelines 2.0 |
| Model Registry | 模型版本管理 | 正式 GA |
| Lightspeed | AI 輔助運維 | 正式 GA |
| Distributed Training | 分散式訓練 | Ray、PyTorch DDP |
| RAG Integration | 檢索增強生成 | Milvus、pgvector |
插圖:展示 OpenShift AI 的主要功能模組。中央是「Op...
場景描述: 展示 OpenShift AI 的主要功能模組。中央是「OpenShift AI」核心,周圍環繞六個功能模組:Workbenches(Jupyter)、Model Training、Model Serving、Pipelines、Model Registry、Lightspeed。每個模組用圖示和簡短說明表示。
視覺重點:
- 主要內容清晰呈現
必須出現的元素:
- 依據描述
需要顯示的中文字: 無
顏色調性: 專業、清晰
避免元素: 抽象圖形、齒輪
Slug:
openshift-ai-core-features
OpenShift AI 架構
平台架構
OpenShift AI 建立在 OpenShift 之上:
┌─────────────────────────────────────────────────┐
│ OpenShift AI │
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ │
│ │Workbench│ │ Serving │ │Pipeline │ │
│ └─────────┘ └─────────┘ └─────────┘ │
├─────────────────────────────────────────────────┤
│ OpenShift │
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ │
│ │ GPU │ │ Storage │ │ Network │ │
│ │ Support │ │ (ODF) │ │ (SDN) │ │
│ └─────────┘ └─────────┘ └─────────┘ │
├─────────────────────────────────────────────────┤
│ 基礎設施(雲端/裸機) │
└─────────────────────────────────────────────────┘
核心組件
1. Dashboard
Web UI 入口,提供:
- Data Science Project 管理
- Workbench 建立與存取
- Model Server 管理
- Pipeline 執行監控
2. Notebook Controller
管理 Jupyter Notebook 環境:
- 多種預設映像檔(PyTorch、TensorFlow、標準 DS)
- 自訂映像檔支援
- GPU 分配
3. Model Mesh / KServe
模型推論服務:
- 支援多種模型格式
- 自動擴展
- A/B 測試
4. Data Science Pipelines
基於 Kubeflow Pipelines:
- 視覺化 Pipeline 編輯
- 排程執行
- 實驗追蹤
與 OpenShift 整合
OpenShift AI 深度整合 OpenShift 功能:
| OpenShift 功能 | OpenShift AI 用途 |
|---|---|
| RBAC | 控制誰能存取哪些專案 |
| Network Policy | 隔離 ML 工作負載 |
| PVC/ODF | 資料集和模型儲存 |
| GPU Operator | GPU 資源管理 |
| Monitoring | 模型服務監控 |
AI/ML 工作流程
完整工作流程
OpenShift AI 支援端到端的 ML 工作流程:
資料準備 → 特徵工程 → 模型訓練 → 模型評估 → 模型部署 → 監控回饋
│ │ │ │ │ │
▼ ▼ ▼ ▼ ▼ ▼
Workbench Workbench Training Registry Serving Monitoring
+ Pipeline Job (KServe)
資料準備
在 Workbench 中進行資料探索和準備:
# 連接資料來源
import boto3
from sqlalchemy import create_engine
# S3 資料
s3 = boto3.client('s3',
endpoint_url=os.environ['S3_ENDPOINT'],
aws_access_key_id=os.environ['AWS_ACCESS_KEY_ID'],
aws_secret_access_key=os.environ['AWS_SECRET_ACCESS_KEY']
)
# 資料庫
engine = create_engine(os.environ['DATABASE_URL'])
df = pd.read_sql("SELECT * FROM training_data", engine)
資料可以存在:
- OpenShift Data Foundation (ODF)
- S3 相容儲存
- 外部資料庫
模型訓練
單機訓練:
在 Workbench 直接訓練(適合小模型):
import torch
from transformers import Trainer, TrainingArguments
training_args = TrainingArguments(
output_dir="./results",
num_train_epochs=3,
per_device_train_batch_size=16,
)
trainer = Trainer(
model=model,
args=training_args,
train_dataset=train_dataset,
)
trainer.train()
分散式訓練:
大型模型使用 Kubernetes 原生的分散式訓練:
apiVersion: kubeflow.org/v1
kind: PyTorchJob
metadata:
name: distributed-training
spec:
pytorchReplicaSpecs:
Master:
replicas: 1
template:
spec:
containers:
- name: pytorch
image: pytorch/pytorch:latest
resources:
limits:
nvidia.com/gpu: 1
Worker:
replicas: 4
template:
spec:
containers:
- name: pytorch
image: pytorch/pytorch:latest
resources:
limits:
nvidia.com/gpu: 1
Model Serving
訓練好的模型可以透過 KServe 部署:
apiVersion: serving.kserve.io/v1beta1
kind: InferenceService
metadata:
name: my-model
spec:
predictor:
model:
modelFormat:
name: sklearn
storageUri: "s3://models/my-model"
支援的模型格式:
- TensorFlow
- PyTorch
- ONNX
- scikit-learn
- XGBoost
- LightGBM
OpenShift Lightspeed
Lightspeed 是 OpenShift AI 的亮點功能,讓管理員用自然語言操作叢集。
功能介紹
Lightspeed 是整合在 OpenShift Console 中的 AI 助手:
- 用自然語言查詢叢集狀態
- 解釋錯誤訊息
- 建議解決方案
- 生成 YAML 設定
使用案例
查詢叢集狀態:
你:顯示過去一小時 CPU 使用率最高的 5 個 Pod
Lightspeed:根據 Prometheus 指標,過去一小時 CPU 使用率最高的 Pod 是:
1. ml-training-job-xyz (namespace: ai-project) - 3.2 cores
2. data-pipeline-abc (namespace: data-eng) - 2.8 cores
...
排查問題:
你:為什麼 my-deployment 的 Pod 一直 CrashLoopBackOff?
Lightspeed:我查看了 Pod 的日誌和事件,發現以下問題:
1. 容器在啟動時找不到環境變數 DATABASE_URL
2. 建議檢查 ConfigMap 或 Secret 是否正確設定
...
生成設定:
你:幫我建立一個 HPA,當 CPU 超過 70% 時擴展 my-deployment,最多 10 個副本
Lightspeed:這是建議的 HorizontalPodAutoscaler 設定:
```yaml
apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
name: my-deployment-hpa
spec:
scaleTargetRef:
apiVersion: apps/v1
kind: Deployment
name: my-deployment
minReplicas: 1
maxReplicas: 10
metrics:
- type: Resource
resource:
name: cpu
target:
type: Utilization
averageUtilization: 70
安全考量
Lightspeed 的設計考慮企業安全需求:
- 可以使用 Red Hat 託管的 LLM
- 也可以連接自建的 LLM
- 敏感資料不會送到外部(可設定)
- 有稽核日誌
想用 OpenShift Lightspeed 提升維運效率?預約 AI 導入諮詢,讓我們評估你的應用場景。
GPU 支援
AI 工作負載少不了 GPU。OpenShift AI 透過 NVIDIA GPU Operator 提供完整支援。
NVIDIA GPU Operator
GPU Operator 自動處理:
- 驅動程式安裝
- CUDA Toolkit
- Device Plugin
- GPU Monitoring
安裝 GPU Operator:
apiVersion: operators.coreos.com/v1alpha1
kind: Subscription
metadata:
name: gpu-operator
namespace: nvidia-gpu-operator
spec:
channel: stable
name: gpu-operator-certified
source: certified-operators
sourceNamespace: openshift-marketplace
GPU 資源調度
在 Workbench 或 Pod 中請求 GPU:
resources:
limits:
nvidia.com/gpu: 1
OpenShift 會自動調度到有 GPU 的節點。
多 GPU 訓練
分散式訓練可以使用多個 GPU:
resources:
limits:
nvidia.com/gpu: 4 # 單節點多 GPU
或跨節點:
# PyTorchJob 跨節點分散式
spec:
pytorchReplicaSpecs:
Worker:
replicas: 8 # 8 個 Worker,每個 1 GPU
GPU 監控
GPU Operator 自動整合監控:
- GPU 使用率
- GPU 記憶體
- GPU 溫度
- 功耗
可在 OpenShift Monitoring 的 Grafana 看到相關指標。
插圖:展示 NVIDIA GPU Operator 在 OpenS...
場景描述: 展示 NVIDIA GPU Operator 在 OpenShift 中的架構。從底層硬體(GPU)開始,往上是驅動程式層、CUDA 層、Device Plugin 層、最上是 AI 工作負載(Workbench、Training Job、Model Serving)。每層用不同顏色區分,標註 GPU Operator 管理的範圍。
視覺重點:
- 主要內容清晰呈現
必須出現的元素:
- 依據描述
需要顯示的中文字: 無
顏色調性: 專業、清晰
避免元素: 抽象圖形、齒輪
Slug:
openshift-nvidia-gpu-operator-stack
開發環境
Jupyter Notebook 整合
OpenShift AI 的 Workbench 基於 Jupyter:
預設映像檔:
- Standard Data Science(通用)
- PyTorch
- TensorFlow
- CUDA(GPU 環境)
自訂映像檔:
可以建立自己的 Notebook 映像檔:
FROM quay.io/opendatahub/notebooks:jupyter-pytorch-2024.1
# 安裝額外套件
RUN pip install transformers datasets accelerate
# 複製自訂設定
COPY jupyter_notebook_config.py /opt/app-root/etc/
VS Code Server
除了 Jupyter,也支援 VS Code Server:
- 完整的 IDE 體驗
- 擴充套件支援
- 終端機存取
環境變數與 Secret
安全地管理 API Key 和認證資訊:
# 建立 Secret
apiVersion: v1
kind: Secret
metadata:
name: ml-credentials
stringData:
HUGGINGFACE_TOKEN: "hf_xxx"
S3_ACCESS_KEY: "xxx"
在 Workbench 中自動注入。
MLOps 實踐
模型版本控制
使用 Data Science Pipelines 追蹤模型版本:
from kfp import dsl
@dsl.component
def train_model(data_path: str, model_output: str):
# 訓練邏輯
model.save(model_output)
@dsl.component
def evaluate_model(model_path: str) -> float:
# 評估邏輯
return accuracy
@dsl.pipeline
def ml_pipeline():
train = train_model(data_path="s3://data", model_output="s3://models/v1")
evaluate = evaluate_model(model_path=train.outputs['model_output'])
CI/CD for ML
整合 OpenShift Pipelines(Tekton):
apiVersion: tekton.dev/v1beta1
kind: Pipeline
metadata:
name: ml-cicd
spec:
tasks:
- name: fetch-code
taskRef:
name: git-clone
- name: run-tests
taskRef:
name: pytest
runAfter: [fetch-code]
- name: train-model
taskRef:
name: ml-training
runAfter: [run-tests]
- name: deploy-model
taskRef:
name: kserve-deploy
runAfter: [train-model]
A/B 測試
KServe 支援 Canary 部署:
apiVersion: serving.kserve.io/v1beta1
kind: InferenceService
metadata:
name: my-model
spec:
predictor:
canaryTrafficPercent: 10
model:
modelFormat:
name: sklearn
storageUri: "s3://models/v2" # 新版本
10% 流量導到新模型,驗證後再全量切換。
安全與合規
資料安全
資料隔離:
- 每個 Data Science Project 是獨立的 Namespace
- 可用 Network Policy 限制網路存取
- 資料儲存在 PVC,可加密
存取控制:
- RBAC 控制誰能存取哪些專案
- 可整合企業身份系統(LDAP/AD)
模型安全
模型存取控制:
- Model Server 可設定認證
- 限制誰能呼叫推論 API
模型稽核:
- Pipeline 執行記錄
- 模型版本追蹤
- 推論日誌
合規考量
OpenShift AI 幫助滿足合規需求:
| 需求 | 解決方案 |
|---|---|
| 資料落地 | 部署在自己的基礎設施 |
| 存取稽核 | OpenShift 稽核日誌 |
| 模型治理 | Model Registry + Pipeline |
| 可解釋性 | 整合 AI Explainability 工具 |
部署與設定
安裝 OpenShift AI
從 OperatorHub 安裝:
- 搜尋 Red Hat OpenShift AI
- 選擇安裝到 redhat-ods-operator namespace
- 等待 Operator 就緒
建立 Data Science Cluster
apiVersion: datasciencecluster.opendatahub.io/v1
kind: DataScienceCluster
metadata:
name: default-dsc
spec:
components:
dashboard:
managementState: Managed
workbenches:
managementState: Managed
datasciencepipelines:
managementState: Managed
modelmeshserving:
managementState: Managed
kserve:
managementState: Managed
資源配置
建議的資源配置:
| 組件 | CPU | Memory | 說明 |
|---|---|---|---|
| Dashboard | 1 | 2Gi | 低負載 |
| Workbench(小) | 2 | 8Gi | 輕量開發 |
| Workbench(大) | 8 | 32Gi | 模型訓練 |
| Model Server | 依模型而定 | 依模型而定 | 需評估 |
常見問題 FAQ
Q1:OpenShift AI 跟 AWS SageMaker 有什麼不同?
主要差異是部署位置。SageMaker 是 AWS 的全託管服務,資料和模型都在 AWS。OpenShift AI 可以部署在任何地方——公有雲、私有雲、自建機房。適合有資料主權需求或已經用 OpenShift 的企業。
Q2:需要多少 GPU 才能跑 OpenShift AI?
不一定需要 GPU。資料探索、小型模型訓練可以用 CPU。但如果要訓練深度學習模型或做即時推論,GPU 會快很多。建議:開發測試環境 1-2 張 GPU,生產環境依工作負載規劃。
Q3:OpenShift Lightspeed 會把我的資料送到外部嗎?
可以控制。Lightspeed 支援多種 LLM 後端:(1)Red Hat 託管的 LLM(資料會經過 Red Hat);(2)自建的 LLM(資料完全不出去)。企業可以根據安全需求選擇。
Q4:現有的 Jupyter Notebook 可以直接用嗎?
大部分可以。OpenShift AI 的 Workbench 基於標準 Jupyter,你的 notebook 檔案應該可以直接跑。但如果有特殊套件需求,可能需要用自訂映像檔。
Q5:OpenShift AI 授權怎麼算?
OpenShift AI 有獨立的訂閱授權,不包含在 OpenShift Container Platform 中。具體費用需要聯繫 Red Hat 或合作夥伴。通常按使用的資源(Core)計價。
想在 OpenShift 上跑 AI 工作負載?
從 GPU 設定到 MLOps 流程,選擇很多但坑也很多。
預約 AI 導入諮詢,讓有經驗的人幫你避坑。
參考資源
相關文章
OpenShift 進階功能:ACM、ACS、LDAP、驗證設定完整指南【2026】
深入介紹 OpenShift 進階功能設定,涵蓋 ACM 多叢集管理、ACS 進階安全、LDAP/AD 身份驗證、RBAC 權限設計、Auto Scaling 與 Service Mesh。
OpenShiftOpenShift 架構解析:Control Plane、Operator 與網路設計【2026】
深度解析 OpenShift 架構設計,涵蓋 Control Plane 組件、Worker Node、Operator 機制、OVN-Kubernetes 網路、儲存架構、安全設計與高可用性配置。
OpenShiftOpenShift 是什麼?Red Hat 容器平台完整指南【2026】
深度解析 OpenShift 4.16/4.17 容器平台,涵蓋核心架構、與 Kubernetes 1.29/1.30 差異、Virtualization 虛擬化、OpenShift AI/ML 功能、GitOps、版本生命週期、安裝部署到價格授權,協助企業評估導入 OpenShift。