在 GKE 上使用 vLLM 运行 DeepSeek-V3.2-Speciale 的推理

本教程介绍如何使用 vLLM 框架部署和提供 DeepSeek-V3.2-Speciale 语言模型。 您可以在 Google Kubernetes Engine (GKE) Autopilot 集群上部署此模型,并使用具有 8 个 B200 GPU 的单个 A4 虚拟机 (VM)。

本教程假定您已查看 DeepSeek-V3.2-Speciale 语言模型,并确认其功能满足您的使用场景的要求。

本教程适用于机器学习 (ML) 工程师、平台管理员和运维人员,以及对使用 Kubernetes 容器编排功能处理推理工作负载感兴趣的数据和 AI 专家。

目标

  1. 使用 Hugging Face 访问 DeepSeek-V3.2-Speciale。

  2. 准备环境。

  3. 在 Autopilot 模式下创建 GKE 集群。

  4. 为 Hugging Face 凭据创建 Kubernetes Secret。

  5. 将 vLLM 容器部署到 GKE 集群。

  6. 使用 curl 与 DeepSeek-V3.2-Speciale 互动。

  7. 清理。

费用

本教程使用 Google Cloud 的可计费组件,包括:

如需根据您的预计使用量来估算费用,请使用 价格计算器

准备工作

  1. 登录您的 Google Cloud 账号。如果您是 Google Cloud的新用户, 请创建账号,以评估我们的产品在 实际场景中的表现。新客户还可获享 $300 赠金,用于 运行、测试和部署工作负载。
  2. 安装 Google Cloud CLI。

  3. 如果您使用的是外部身份提供方 (IdP),则必须先使用联合身份登录 gcloud CLI

  4. 如需初始化 gcloud CLI,请运行以下命令:

    gcloud init
  5. 创建或选择 Google Cloud 项目

    选择或创建项目所需角色

    • 选择项目:选择项目不需要特定的 IAM 角色,您可以选择已获授角色的任何项目。
    • 创建项目:如需创建项目,您需要 Project Creator 角色 (roles/resourcemanager.projectCreator),该角色包含 resourcemanager.projects.create 权限。了解如何授予 角色
    • 创建 Google Cloud 项目:

      gcloud projects create PROJECT_ID

      PROJECT_ID 替换为您要创建的 Google Cloud 项目的名称。

    • 选择您创建的 Google Cloud 项目:

      gcloud config set project PROJECT_ID

      PROJECT_ID 替换为您的 Google Cloud 项目名称。

  6. 验证是否已为您的 Google Cloud 项目启用结算功能。

  7. 启用必需的 API:

    启用 API 所需的角色

    如需启用 API,您需要拥有 Service Usage Admin IAM 角色 (roles/serviceusage.serviceUsageAdmin),该角色包含 serviceusage.services.enable 权限。了解如何授予 角色

    gcloud services enable container.googleapis.com
  8. 安装 Google Cloud CLI。

  9. 如果您使用的是外部身份提供方 (IdP),则必须先使用联合身份登录 gcloud CLI

  10. 如需初始化 gcloud CLI,请运行以下命令:

    gcloud init
  11. 创建或选择 Google Cloud 项目

    选择或创建项目所需角色

    • 选择项目:选择项目不需要特定的 IAM 角色,您可以选择已获授角色的任何项目。
    • 创建项目:如需创建项目,您需要 Project Creator 角色 (roles/resourcemanager.projectCreator),该角色包含 resourcemanager.projects.create 权限。了解如何授予 角色
    • 创建 Google Cloud 项目:

      gcloud projects create PROJECT_ID

      PROJECT_ID 替换为您要创建的 Google Cloud 项目的名称。

    • 选择您创建的 Google Cloud 项目:

      gcloud config set project PROJECT_ID

      PROJECT_ID 替换为您的 Google Cloud 项目名称。

  12. 验证是否已为您的 Google Cloud 项目启用结算功能。

  13. 启用必需的 API:

    启用 API 所需的角色

    如需启用 API,您需要拥有 Service Usage Admin IAM 角色 (roles/serviceusage.serviceUsageAdmin),该角色包含 serviceusage.services.enable 权限。了解如何授予 角色

    gcloud services enable container.googleapis.com
  14. 为您的用户账号授予角色。对以下每个 IAM 角色运行以下命令一次: roles/container.admin

    gcloud projects add-iam-policy-binding PROJECT_ID --member="user:USER_IDENTIFIER" --role=ROLE

    替换以下内容:

    • PROJECT_ID:您的项目 ID。
    • USER_IDENTIFIER:您的用户账号的标识符。 例如,myemail@example.com
    • ROLE:您授予用户账号的 IAM 角色。
  15. 登录或创建 Hugging Face 账号

使用 Hugging Face 访问 DeepSeek-V3.2-Speciale

如需使用 Hugging Face 访问 DeepSeek-V3.2-Speciale 模型,请执行以下操作:

  1. 登录 Hugging Face
  2. 创建 Hugging Face read 访问令牌
  3. 复制并保存 read 访问令牌值。您将在本教程的后续步骤中使用该值。

准备环境

如需准备环境,请设置以下变量:

gcloud config set project PROJECT_ID
gcloud config set billing/quota_project PROJECT_ID
export PROJECT_ID=$(gcloud config get project)
export RESERVATION_URL=RESERVATION_URL
export REGION=REGION
export CLUSTER_NAME=CLUSTER_NAME
export HUGGING_FACE_TOKEN=HUGGING_FACE_TOKEN
export NETWORK=NETWORK_NAME
export SUBNETWORK=SUBNETWORK_NAME

替换以下内容:

  • PROJECT_ID:您要在其中创建 GKE 集群的 Google Cloud 项目 的 ID。

  • RESERVATION_URL:您要用于创建 GKE 集群的预留的网址。根据预留所在的项目,指定以下某个值:

    • 预留存在于您的项目中: RESERVATION_NAME

    • 预留存在于其他项目中,并且您的项目可以使用该预留: projects/RESERVATION_PROJECT_ID/reservations/RESERVATION_NAME

  • REGION:您要在其中创建 GKE 集群的区域。您只能在预留所在的区域中创建集群。

  • CLUSTER_NAME:要创建的 GKE 集群的名称。

  • HUGGING_FACE_TOKEN:您在上一部分中创建的 Hugging Face 访问令牌。

  • NETWORK_NAME:GKE 集群使用的网络。指定以下某个值:

    • 如果您创建了自定义网络,请指定网络的名称。

    • 否则,请指定 default

  • SUBNETWORK_NAME:GKE 集群使用的子网。指定以下某个值:

    • 如果您创建了自定义子网,请指定子网的名称。您只能指定与预留位于同一区域的子网。

    • 否则,请指定 default

创建和配置 Google Cloud 资源

按照本部分中的说明创建所需资源。

在 Autopilot 模式下创建 GKE 集群

如需在 Autopilot 模式下创建 GKE 集群,请运行以下命令:

gcloud container clusters create-auto $CLUSTER_NAME \
    --project=$PROJECT_ID \
    --region=$REGION \
    --release-channel=rapid \
    --network=$NETWORK \
    --subnetwork=$SUBNETWORK

创建 GKE 集群可能需要一些时间才能完成。 如需验证是否已完成集群创建,请前往 控制台中的 Kubernetes 集群 Google Cloud 。 Google Cloud

创建一个 Kubernetes Secret 来存储您的 Hugging Face 凭据

如需创建一个 Kubernetes Secret 来存储您的 Hugging Face 凭据,请执行以下操作:

  1. 配置 kubectl 以与您的 GKE 集群通信:

    gcloud container clusters get-credentials $CLUSTER_NAME \
        --location=$REGION
    
  2. 创建一个 Kubernetes Secret,其中包含您在之前的步骤中创建的 Hugging Face read access 令牌:

    kubectl create secret generic hf-secret \
        --from-literal=hf_token=${HUGGING_FACE_TOKEN} \
        --dry-run=client -o yaml | kubectl apply -f -
    

将 vLLM 容器部署到 GKE 集群

如需部署 vLLM 容器以提供 deepseek-ai/DeepSeek-V3.2-Speciale 模型,请执行以下操作:

  1. 使用您选择的 vLLM 部署创建一个 vllm-deepseek3-2.yaml 文件:

    apiVersion: apps/v1
    kind: Deployment
    metadata:
      name: deepseek3-2-deploy
    spec:
      replicas: 1
      selector:
        matchLabels:
          app: deepseek
      template:
        metadata:
          labels:
            app: deepseek
            ai.gke.io/model: deepseek-v3-2
            ai.gke.io/inference-server: vllm
            examples.ai.gke.io/source: user-guide
        spec:
          containers:
          - name: vllm-inference
            image: us-docker.pkg.dev/vertex-ai/vertex-vision-model-garden-dockers/pytorch-vllm-serve:model-garden.pytorch-vllm-serve-release_20251126.00_p0
            resources:
              requests:
                cpu: "10"
                memory: "1000Gi"
                ephemeral-storage: "1Ti"
                nvidia.com/gpu: "8"
              limits:
                cpu: "10"
                memory: "1000Gi"
                ephemeral-storage: "1Ti"
                nvidia.com/gpu: "8"
            command: ["python3", "-m", "vllm.entrypoints.openai.api_server"]
            args:
            - --model=$(MODEL_ID)
            - --tensor-parallel-size=8
            - --host=0.0.0.0
            - --port=8000
            - --max-model-len=131072
            - --max-num-seqs=16
            - --enable-chunked-prefill
            - --gpu-memory-utilization=0.90
            - --enforce-eager
            - --trust-remote-code
            env:
            - name: MODEL_ID
              value: deepseek-ai/DeepSeek-V3.2-Speciale
            - name: HUGGING_FACE_HUB_TOKEN
              valueFrom:
                secretKeyRef:
                  name: hf-secret
                  key: hf_token
            volumeMounts:
            - mountPath: /dev/shm
              name: dshm
            livenessProbe:
              httpGet:
                path: /health
                port: 8000
              initialDelaySeconds: 1800
              periodSeconds: 10
            readinessProbe:
              httpGet:
                path: /health
                port: 8000
              initialDelaySeconds: 1800
              periodSeconds: 5
          volumes:
          - name: dshm
            emptyDir:
              medium: Memory
          nodeSelector:
            cloud.google.com/gke-accelerator: nvidia-b200
            cloud.google.com/reservation-name: $RESERVATION_URL
            cloud.google.com/reservation-affinity: "specific"
            cloud.google.com/gke-gpu-driver-version: latest
    
    ---
    apiVersion: v1
    kind: Service
    metadata:
      name: deepseek-service
    spec:
      selector:
        app: deepseek
      type: ClusterIP
      ports:
        - protocol: TCP
          port: 8000
          targetPort: 8000
    ---
    apiVersion: monitoring.googleapis.com/v1
    kind: PodMonitoring
    metadata:
      name: deepseek-monitoring
    spec:
      selector:
        matchLabels:
          app: deepseek
      endpoints:
      - port: 8000
        path: /metrics
        interval: 30s
    
  2. vllm-deepseek3-2.yaml 文件应用于您的 GKE 集群:

      envsubst < vllm-deepseek3-2.yaml | kubectl apply -f -
    

    在部署过程中,容器必须从 Hugging Face 下载 deepseek-ai/DeepSeek-V3.2-Speciale 模型。因此,容器的部署可能需要长达 30 分钟才能完成。

  3. 如需查看完成状态,请运行以下命令:

      kubectl wait \
          --for=condition=Available \
          --timeout=1800s deployment/deepseek3-2-deploy
    

    --timeout=1800s 标志允许该命令监控部署长达 30 分钟。

使用 curl 与 DeepSeek-V3.2-Speciale 互动

如需验证您部署的 DeepSeek-V3.2-Speciale 模型,请执行以下操作:

  1. 设置到 DeepSeek-V3.2-Speciale 的端口转发:

    kubectl port-forward service/deepseek-service 8000:8000
    
  2. 打开一个新终端窗口。然后,您可以使用 curl 与模型聊天:

    time curl http://127.0.0.1:8000/v1/completions \
       -X POST \
       -H "Content-Type: application/json" \
       -d '{
         "model": "deepseek-ai/DeepSeek-V3.2-Speciale",
         "prompt": "<|im_start|>user\nExplain the ReAct (Reasoning + Acting) pattern in Agentic AI. Provide a concise Python pseudocode example showing the loop. Keep the explanation under 300 words.<|im_end|>\n<|im_start|>assistant\n",
         "max_tokens": 1024,
         "temperature": 0.7,
         "stream": false,
         "stop": ["<|im_end|>"]
       }'
    
  3. 您看到的输出类似于以下内容:

    {
    "id": "cmpl-be345f0499e949ed8500e533be2cfe3f",
    "object": "text_completion",
    "created": 1764803171,
    "model": "deepseek-ai/DeepSeek-V3.2-Speciale",
    "choices": [
      {
        "index": 0,
        "text": "The ReAct pattern integrates reasoning (thoughts) and actions (tool calls) within an agentic loop... [TRUNCATED FOR BREVITY] ...ReAct improves transparency and reliability by explicit reasoning steps.",
        "logprobs": null,
        "finish_reason": "stop",
        "stop_reason": "<|im_end|>",
        "token_ids": null,
        "prompt_logprobs": null,
        "prompt_token_ids": null
      }
    ],
    "service_tier": null,
    "system_fingerprint": null,
    "usage": {
      "prompt_tokens": 57,
      "total_tokens": 317,
      "completion_tokens": 260,
      "prompt_tokens_details": null
    },
    "kv_transfer_params": null
    }
    

观察模型性能

如需观察模型的性能,您可以使用 Cloud Monitoring 中的 vLLM 信息中心 集成 您可以使用此信息中心查看各种关键性能指标,例如令牌吞吐量、请求延迟时间和错误率。

如需了解如何使用 Google Cloud Managed Service for Prometheus 从模型收集指标,请参阅 vLLM Cloud Monitoring 文档中的可观测性指南。

清理

为避免因本教程中使用的资源导致您的 Google Cloud 账号产生费用,请删除包含这些资源的项目,或者保留项目但删除各个资源。

删除项目

删除项目: Google Cloud

gcloud projects delete PROJECT_ID

删除资源

  1. 如需删除 vllm-deepseek3-2.yaml 文件中的部署和服务以及 GKE 集群中的 Kubernetes Secret,请运行以下命令:

    kubectl delete -f vllm-deepseek3-2.yaml
    kubectl delete secret hf-secret
    
  2. 如需删除 GKE 集群,请运行以下命令:

    gcloud container clusters delete $CLUSTER_NAME \
            --region=$REGION
    

后续步骤