在 GKE 上使用 vLLM,透過 DeepSeek-V3.2-Speciale 執行推論作業

本教學課程說明如何使用 vLLM 架構,部署及提供 DeepSeek-V3.2-Speciale 語言模型。您會在 Google Kubernetes Engine (GKE) Autopilot 叢集上部署這個模型,並使用具有八個 B200 GPU 的單一 A4 虛擬機器 (VM)。

本教學課程假設您已查看 DeepSeek-V3.2-Speciale 語言模型,並確認其功能符合您的用途需求。

本教學課程的適用對象為機器學習 (ML) 工程師、平台管理員和操作員,以及有興趣使用 Kubernetes 容器自動化調度管理功能處理推論工作負載的資料和 AI 專家。

目標

  1. 透過 Hugging Face 存取 DeepSeek-V3.2-Speciale。

  2. 準備環境。

  3. 在 Autopilot 模式中建立 GKE 叢集。

  4. 建立 Hugging Face 憑證的 Kubernetes 密鑰。

  5. 將 vLLM 容器部署至 GKE 叢集。

  6. 使用 curl 與 DeepSeek-V3.2-Speciale 互動。

  7. 清除所用資源。

費用

本教學課程使用 Google Cloud 的計費元件包括:

如要根據預測用量估算費用,請使用 Pricing Calculator

事前準備

  1. 登入 Google Cloud 帳戶。如果您是 Google Cloud新手,歡迎 建立帳戶,親自評估產品在實際工作環境中的成效。新客戶還能獲得價值 $300 美元的免費抵免額,可用於執行、測試及部署工作負載。
  2. 安裝 Google Cloud CLI。

  3. 若您採用的是外部識別資訊提供者 (IdP),請先使用聯合身分登入 gcloud CLI

  4. 執行下列指令,初始化 gcloud CLI:

    gcloud init
  5. 建立或選取 Google Cloud 專案

    選取或建立專案所需的角色

    • 選取專案:選取專案時,不需要具備特定 IAM 角色,只要您已獲授角色,即可選取任何專案。
    • 建立專案:如要建立專案,您需要具備專案建立者角色 (roles/resourcemanager.projectCreator),其中包含 resourcemanager.projects.create 權限。瞭解如何授予角色
    • 建立 Google Cloud 專案:

      gcloud projects create PROJECT_ID

      PROJECT_ID 替換為您要建立的 Google Cloud 專案名稱。

    • 選取您建立的 Google Cloud 專案:

      gcloud config set project PROJECT_ID

      PROJECT_ID 替換為 Google Cloud 專案名稱。

  6. 確認專案已啟用計費功能 Google Cloud

  7. 啟用必要的 API:

    啟用 API 時所需的角色

    如要啟用 API,您需要具備服務使用情形管理員 IAM 角色 (roles/serviceusage.serviceUsageAdmin),其中包含 serviceusage.services.enable 權限。瞭解如何授予角色

    gcloud services enable container.googleapis.com
  8. 安裝 Google Cloud CLI。

  9. 若您採用的是外部識別資訊提供者 (IdP),請先使用聯合身分登入 gcloud CLI

  10. 執行下列指令,初始化 gcloud CLI:

    gcloud init
  11. 建立或選取 Google Cloud 專案

    選取或建立專案所需的角色

    • 選取專案:選取專案時,不需要具備特定 IAM 角色,只要您已獲授角色,即可選取任何專案。
    • 建立專案:如要建立專案,您需要具備專案建立者角色 (roles/resourcemanager.projectCreator),其中包含 resourcemanager.projects.create 權限。瞭解如何授予角色
    • 建立 Google Cloud 專案:

      gcloud projects create PROJECT_ID

      PROJECT_ID 替換為您要建立的 Google Cloud 專案名稱。

    • 選取您建立的 Google Cloud 專案:

      gcloud config set project PROJECT_ID

      PROJECT_ID 替換為 Google Cloud 專案名稱。

  12. 確認專案已啟用計費功能 Google Cloud

  13. 啟用必要的 API:

    啟用 API 時所需的角色

    如要啟用 API,您需要具備服務使用情形管理員 IAM 角色 (roles/serviceusage.serviceUsageAdmin),其中包含 serviceusage.services.enable 權限。瞭解如何授予角色

    gcloud services enable container.googleapis.com
  14. 將角色授予使用者帳戶。針對下列每個 IAM 角色,執行一次下列指令: roles/container.admin

    gcloud projects add-iam-policy-binding PROJECT_ID --member="user:USER_IDENTIFIER" --role=ROLE

    更改下列內容:

    • PROJECT_ID:專案 ID。
    • USER_IDENTIFIER:使用者帳戶的 ID。 例如:myemail@example.com
    • ROLE:授予使用者帳戶的 IAM 角色。
  15. 登入或建立 Hugging Face 帳戶

使用 Hugging Face 存取 DeepSeek-V3.2-Speciale

如要使用 Hugging Face 存取 DeepSeek-V3.2-Speciale 模型,請按照下列步驟操作:

  1. 登入 Hugging Face
  2. 建立 Hugging Face read 存取權杖
  3. 複製並儲存 read 存取權杖值。您會在稍後的教學課程中用到這項資訊。

準備環境

如要準備環境,請設定下列變數:

gcloud config set project PROJECT_ID
gcloud config set billing/quota_project PROJECT_ID
export PROJECT_ID=$(gcloud config get project)
export RESERVATION_URL=RESERVATION_URL
export REGION=REGION
export CLUSTER_NAME=CLUSTER_NAME
export HUGGING_FACE_TOKEN=HUGGING_FACE_TOKEN
export NETWORK=NETWORK_NAME
export SUBNETWORK=SUBNETWORK_NAME

更改下列內容:

  • PROJECT_ID:您要在其中建立 GKE 叢集的 Google Cloud 專案 ID。

  • RESERVATION_URL:您要用來建立 GKE 叢集的預訂網址。根據預留項目所在的專案,指定下列其中一個值:

    • 專案中已有預留項目: RESERVATION_NAME

    • 預留項目位於其他專案,且您的專案可以使用該預留項目: projects/RESERVATION_PROJECT_ID/reservations/RESERVATION_NAME

  • REGION:要建立 GKE 叢集的區域。您只能在預留項目所在的區域建立叢集。

  • CLUSTER_NAME:要建立的 GKE 叢集名稱。

  • HUGGING_FACE_TOKEN:您在上一節中建立的 Hugging Face 存取權杖。

  • NETWORK_NAME:GKE 叢集使用的網路。請指定下列其中一個值:

    • 如果您建立的是自訂網路,請指定網路名稱。

    • 否則,請指定 default

  • SUBNETWORK_NAME:GKE 叢集使用的子網路。請指定下列其中一個值:

    • 如果您建立的是自訂子網路,請指定子網路名稱。您只能指定與預留項目位於相同區域的子網路。

    • 否則,請指定 default

建立及設定 Google Cloud 資源

請按照本節的指示建立必要資源。

在 Autopilot 模式中建立 GKE 叢集

如要在 Autopilot 模式中建立 GKE 叢集,請執行下列指令:

gcloud container clusters create-auto $CLUSTER_NAME \
    --project=$PROJECT_ID \
    --region=$REGION \
    --release-channel=rapid \
    --network=$NETWORK \
    --subnetwork=$SUBNETWORK

建立 GKE 叢集可能需要一段時間。 如要確認 Google Cloud 已完成叢集建立作業,請前往 Google Cloud 控制台的「Kubernetes clusters」(Kubernetes 叢集)

建立 Kubernetes 密鑰來儲存 Hugging Face 憑證

如要建立 Kubernetes 密鑰來儲存 Hugging Face 憑證,請按照下列步驟操作:

  1. 設定 kubectl,與 GKE 叢集通訊:

    gcloud container clusters get-credentials $CLUSTER_NAME \
        --location=$REGION
    
  2. 建立 Kubernetes 密鑰,內含您在前一個步驟建立的 Hugging Face read access權杖:

    kubectl create secret generic hf-secret \
        --from-literal=hf_token=${HUGGING_FACE_TOKEN} \
        --dry-run=client -o yaml | kubectl apply -f -
    

將 vLLM 容器部署至 GKE 叢集

如要部署 vLLM 容器來提供 deepseek-ai/DeepSeek-V3.2-Speciale 模型服務,請按照下列步驟操作:

  1. 建立 vllm-deepseek3-2.yaml 檔案,並選擇 vLLM 部署作業:

    apiVersion: apps/v1
    kind: Deployment
    metadata:
      name: deepseek3-2-deploy
    spec:
      replicas: 1
      selector:
        matchLabels:
          app: deepseek
      template:
        metadata:
          labels:
            app: deepseek
            ai.gke.io/model: deepseek-v3-2
            ai.gke.io/inference-server: vllm
            examples.ai.gke.io/source: user-guide
        spec:
          containers:
          - name: vllm-inference
            image: us-docker.pkg.dev/vertex-ai/vertex-vision-model-garden-dockers/pytorch-vllm-serve:model-garden.pytorch-vllm-serve-release_20251126.00_p0
            resources:
              requests:
                cpu: "10"
                memory: "1000Gi"
                ephemeral-storage: "1Ti"
                nvidia.com/gpu: "8"
              limits:
                cpu: "10"
                memory: "1000Gi"
                ephemeral-storage: "1Ti"
                nvidia.com/gpu: "8"
            command: ["python3", "-m", "vllm.entrypoints.openai.api_server"]
            args:
            - --model=$(MODEL_ID)
            - --tensor-parallel-size=8
            - --host=0.0.0.0
            - --port=8000
            - --max-model-len=131072
            - --max-num-seqs=16
            - --enable-chunked-prefill
            - --gpu-memory-utilization=0.90
            - --enforce-eager
            - --trust-remote-code
            env:
            - name: MODEL_ID
              value: deepseek-ai/DeepSeek-V3.2-Speciale
            - name: HUGGING_FACE_HUB_TOKEN
              valueFrom:
                secretKeyRef:
                  name: hf-secret
                  key: hf_token
            volumeMounts:
            - mountPath: /dev/shm
              name: dshm
            livenessProbe:
              httpGet:
                path: /health
                port: 8000
              initialDelaySeconds: 1800
              periodSeconds: 10
            readinessProbe:
              httpGet:
                path: /health
                port: 8000
              initialDelaySeconds: 1800
              periodSeconds: 5
          volumes:
          - name: dshm
            emptyDir:
              medium: Memory
          nodeSelector:
            cloud.google.com/gke-accelerator: nvidia-b200
            cloud.google.com/reservation-name: $RESERVATION_URL
            cloud.google.com/reservation-affinity: "specific"
            cloud.google.com/gke-gpu-driver-version: latest
    
    ---
    apiVersion: v1
    kind: Service
    metadata:
      name: deepseek-service
    spec:
      selector:
        app: deepseek
      type: ClusterIP
      ports:
        - protocol: TCP
          port: 8000
          targetPort: 8000
    ---
    apiVersion: monitoring.googleapis.com/v1
    kind: PodMonitoring
    metadata:
      name: deepseek-monitoring
    spec:
      selector:
        matchLabels:
          app: deepseek
      endpoints:
      - port: 8000
        path: /metrics
        interval: 30s
    
  2. vllm-deepseek3-2.yaml 檔案套用至 GKE 叢集:

      envsubst < vllm-deepseek3-2.yaml | kubectl apply -f -
    

    部署期間,容器必須從 Hugging Face 下載 deepseek-ai/DeepSeek-V3.2-Speciale 模型。因此,容器部署作業最多可能需要 30 分鐘才能完成。

  3. 如要查看完成狀態,請執行下列指令:

      kubectl wait \
          --for=condition=Available \
          --timeout=1800s deployment/deepseek3-2-deploy
    

    --timeout=1800s 標記可讓指令監控部署作業最多 30 分鐘。

使用 curl 與 DeepSeek-V3.2-Speciale 互動

如要驗證您部署的 DeepSeek-V3.2-Speciale 模型,請按照下列步驟操作:

  1. 設定通訊埠轉送至 DeepSeek-V3.2-Speciale:

    kubectl port-forward service/deepseek-service 8000:8000
    
  2. 開啟新的終端機視窗。然後,您可以使用 curl 與模型對話:

    time curl http://127.0.0.1:8000/v1/completions \
       -X POST \
       -H "Content-Type: application/json" \
       -d '{
         "model": "deepseek-ai/DeepSeek-V3.2-Speciale",
         "prompt": "<|im_start|>user\nExplain the ReAct (Reasoning + Acting) pattern in Agentic AI. Provide a concise Python pseudocode example showing the loop. Keep the explanation under 300 words.<|im_end|>\n<|im_start|>assistant\n",
         "max_tokens": 1024,
         "temperature": 0.7,
         "stream": false,
         "stop": ["<|im_end|>"]
       }'
    
  3. 您看到的輸出內容類似如下:

    {
    "id": "cmpl-be345f0499e949ed8500e533be2cfe3f",
    "object": "text_completion",
    "created": 1764803171,
    "model": "deepseek-ai/DeepSeek-V3.2-Speciale",
    "choices": [
      {
        "index": 0,
        "text": "The ReAct pattern integrates reasoning (thoughts) and actions (tool calls) within an agentic loop... [TRUNCATED FOR BREVITY] ...ReAct improves transparency and reliability by explicit reasoning steps.",
        "logprobs": null,
        "finish_reason": "stop",
        "stop_reason": "<|im_end|>",
        "token_ids": null,
        "prompt_logprobs": null,
        "prompt_token_ids": null
      }
    ],
    "service_tier": null,
    "system_fingerprint": null,
    "usage": {
      "prompt_tokens": 57,
      "total_tokens": 317,
      "completion_tokens": 260,
      "prompt_tokens_details": null
    },
    "kv_transfer_params": null
    }
    

觀察模型成效

如要觀察模型效能,可以使用 Cloud Monitoring 中的 vLLM 資訊主頁整合功能。您可以使用這個資訊主頁查看重要成效指標,例如權杖輸送量、要求延遲時間和錯誤率。

如要瞭解如何使用 Google Cloud Managed Service for Prometheus 從模型收集指標,請參閱 Cloud Monitoring 說明文件中的 vLLM 可觀測性指南。

清除所用資源

為避免因為本教學課程所用資源,導致系統向 Google Cloud 帳戶收取費用,請刪除含有相關資源的專案,或者保留專案但刪除個別資源。

刪除專案

刪除 Google Cloud 專案:

gcloud projects delete PROJECT_ID

刪除資源

  1. 如要刪除 vllm-deepseek3-2.yaml 檔案中的部署和服務,以及 GKE 叢集中的 Kubernetes 密鑰,請執行下列指令:

    kubectl delete -f vllm-deepseek3-2.yaml
    kubectl delete secret hf-secret
    
  2. 如要刪除 GKE 叢集,請執行下列指令:

    gcloud container clusters delete $CLUSTER_NAME \
            --region=$REGION
    

後續步驟