在 GKE 上使用 vLLM 运行 gpt-oss-120b 推理

本教程介绍如何使用 vLLM 框架部署和应用 gpt-oss-120b, 语言模型。 您可以在 Google Kubernetes Engine (GKE) Autopilot 集群上部署此模型,并使用具有 8 个 B200 GPU 的单个 A4 虚拟机 (VM)。

本教程适用于机器学习 (ML) 工程师、平台管理员和运维人员,以及对使用 Kubernetes 容器编排功能处理推理工作负载感兴趣的数据和 AI 专家。

目标

  1. 使用 Hugging Face 访问 gpt-oss-120b
  2. 准备环境。
  3. 在 Autopilot 模式下创建 GKE 集群。
  4. 为 Hugging Face 凭据创建 Kubernetes Secret。
  5. 将 vLLM 容器部署到 GKE 集群。
  6. 使用 curl 与 gpt-oss 语言模型互动。
  7. 清理。

费用

本教程使用 Google Cloud 的如下计费组件:

如需根据您的预计使用量来估算费用,请使用 价格计算器

准备工作

  1. 登录您的 Google Cloud 账号。如果您是 Google Cloud的新用户, 请创建账号,以评估我们的产品在 实际场景中的表现。新客户还可获享 $300 赠金,用于 运行、测试和部署工作负载。
  2. 安装 Google Cloud CLI。

  3. 如果您使用的是外部身份提供方 (IdP),则必须先使用联合身份登录 gcloud CLI

  4. 如需初始化 gcloud CLI,请运行以下命令:

    gcloud init
  5. 创建或选择 Google Cloud 项目

    选择或创建项目所需角色

    • 选择项目:选择项目不需要特定的 IAM 角色,您可以选择已获授予角色的任何项目。
    • 创建项目:如需创建项目,您需要 Project Creator 角色 (roles/resourcemanager.projectCreator),该角色包含 resourcemanager.projects.create 权限。了解如何授予 角色
    • 创建 Google Cloud 项目:

      gcloud projects create PROJECT_ID

      PROJECT_ID 替换为您要创建的 Google Cloud 项目的名称。

    • 选择您创建的 Google Cloud 项目:

      gcloud config set project PROJECT_ID

      PROJECT_ID 替换为您的 Google Cloud 项目名称。

  6. 验证您的 Google Cloud 项目是否已启用结算功能。

  7. 启用必需的 API:

    启用 API 所需的角色

    如需启用 API,您需要拥有 Service Usage Admin IAM 角色 (roles/serviceusage.serviceUsageAdmin),该角色包含 serviceusage.services.enable 权限。了解如何授予 角色

    gcloud services enable container.googleapis.com
  8. 安装 Google Cloud CLI。

  9. 如果您使用的是外部身份提供方 (IdP),则必须先使用联合身份登录 gcloud CLI

  10. 如需初始化 gcloud CLI,请运行以下命令:

    gcloud init
  11. 创建或选择 Google Cloud 项目

    选择或创建项目所需角色

    • 选择项目:选择项目不需要特定的 IAM 角色,您可以选择已获授予角色的任何项目。
    • 创建项目:如需创建项目,您需要 Project Creator 角色 (roles/resourcemanager.projectCreator),该角色包含 resourcemanager.projects.create 权限。了解如何授予 角色
    • 创建 Google Cloud 项目:

      gcloud projects create PROJECT_ID

      PROJECT_ID 替换为您要创建的 Google Cloud 项目的名称。

    • 选择您创建的 Google Cloud 项目:

      gcloud config set project PROJECT_ID

      PROJECT_ID 替换为您的 Google Cloud 项目名称。

  12. 验证您的 Google Cloud 项目是否已启用结算功能。

  13. 启用必需的 API:

    启用 API 所需的角色

    如需启用 API,您需要拥有 Service Usage Admin IAM 角色 (roles/serviceusage.serviceUsageAdmin),该角色包含 serviceusage.services.enable 权限。了解如何授予 角色

    gcloud services enable container.googleapis.com
  14. 将角色授予您的用户账号。对以下每个 IAM 角色运行以下命令一次: roles/container.admin

    gcloud projects add-iam-policy-binding PROJECT_ID --member="user:USER_IDENTIFIER" --role=ROLE

    替换以下内容:

    • PROJECT_ID:您的项目 ID。
    • USER_IDENTIFIER:您的用户账号的标识符。 例如,myemail@example.com
    • ROLE:您授予用户账号的 IAM 角色。
  15. 登录或创建 Hugging Face 账号

使用 Hugging Face 访问 gpt-oss

如需使用 Hugging Face 访问 gpt-oss,请执行以下操作:

  1. 登录 Hugging Face 并探索 gpt-oss 模型
  2. 创建 Hugging Face read 访问令牌
  3. 复制并保存 read access 令牌值。您将在本教程的后面部分使用它。

准备环境

如需准备环境,请设置默认环境变量:

gcloud config set project PROJECT_ID
gcloud config set billing/quota_project PROJECT_ID
export PROJECT_ID=$(gcloud config get project)
export RESERVATION_URL=RESERVATION_URL
export REGION=REGION
export CLUSTER_NAME=CLUSTER_NAME
export HUGGING_FACE_TOKEN=HUGGING_FACE_TOKEN
export NETWORK=NETWORK_NAME
export SUBNETWORK=SUBNETWORK_NAME

替换以下内容:

  • PROJECT_ID:您要在其中创建 GKE 集群的 Google Cloud 项目 的 ID。

  • RESERVATION_URL:您要用于创建 GKE 集群的预留的网址。根据预留所在的项目的不同,请指定以下某个值:

    • 预留存在于您的项目中: RESERVATION_NAME

    • 预留存在于其他项目中,并且您的项目可以使用该预留: projects/RESERVATION_PROJECT_ID/reservations/RESERVATION_NAME

  • REGION:您要在其中创建 GKE 集群的区域。您只能在预留所在的区域中创建集群。

  • CLUSTER_NAME:要创建的 GKE 集群的名称。

  • HUGGING_FACE_TOKEN:您在上一部分中创建的 Hugging Face 访问令牌。

  • NETWORK_NAME:GKE 集群使用的网络。请指定以下某个值:

    • 如果您创建了自定义网络,请指定网络的名称。

    • 否则,请指定 default

  • SUBNETWORK_NAME:GKE 集群使用的子网。请指定以下某个值:

    • 如果您创建了自定义子网,请指定子网的名称。您只能指定与预留位于同一区域的子网。

    • 否则,请指定 default

在 Autopilot 模式下创建 GKE 集群

如需在 Autopilot 模式下创建 GKE 集群,请运行以下命令:

gcloud container clusters create-auto $CLUSTER_NAME \
    --project=$PROJECT_ID \
    --region=$REGION \
    --release-channel=rapid \
    --network=$NETWORK \
    --subnetwork=$SUBNETWORK

创建 GKE 集群可能需要一些时间才能完成。如需验证是否已完成集群创建,请前往控制台中的 Kubernetes 集群。 Google Cloud Google Cloud

为 Hugging Face 凭据创建 Kubernetes Secret

如需为 Hugging Face 凭据创建 Kubernetes Secret,请执行以下操作:

  1. 配置 kubectl 以与 GKE 集群通信:

    gcloud container clusters get-credentials $CLUSTER_NAME \
        --location=$REGION
    
  2. 创建一个 Kubernetes Secret 来存储您的 Hugging Face 令牌:

    kubectl create secret generic hf-secret \
        --from-literal=hf_token=${HUGGING_FACE_TOKEN} \
        --dry-run=client -o yaml | kubectl apply -f -
    

将 vLLM 容器部署到 GKE 集群

  1. 使用您选择的 vLLM 部署创建一个 vllm-gpt-oss-120b.yaml 文件:

    apiVersion: apps/v1
    kind: Deployment
    metadata:
      name: vllm-gpt-oss-deployment
    spec:
      replicas: 1
      selector:
        matchLabels:
          app: gpt-oss
      template:
        metadata:
          labels:
            app: gpt-oss
            ai.gke.io/model: gpt-oss-120b
            ai.gke.io/inference-server: vllm
            examples.ai.gke.io/source: user-guide
        spec:
          containers:
          - name: vllm-inference
            image: us-docker.pkg.dev/vertex-ai/vertex-vision-model-garden-dockers/pytorch-vllm-serve:20250822_0916_RC01
            resources:
              requests:
                cpu: "10"
                memory: "128Gi"
                ephemeral-storage: "240Gi"
                nvidia.com/gpu: "8"
              limits:
                cpu: "10"
                memory: "128Gi"
                ephemeral-storage: "240Gi"
                nvidia.com/gpu: "8"
            command: ["python3", "-m", "vllm.entrypoints.openai.api_server"]
            args:
            - --model=$(MODEL_ID)
            - --tensor-parallel-size=2
            - --host=0.0.0.0
            - --port=8000
            - --max-model-len=8192
            - --max-num-seqs=4
            env:
            - name: MODEL_ID
              value: openai/gpt-oss-120b
            - name: HUGGING_FACE_HUB_TOKEN
              valueFrom:
                secretKeyRef:
                  name: hf-secret
                  key: hf_token
            volumeMounts:
            - mountPath: /dev/shm
              name: dshm
            livenessProbe:
              httpGet:
                path: /health
                port: 8000
              initialDelaySeconds: 1200
              periodSeconds: 10
            readinessProbe:
              httpGet:
                path: /health
                port: 8000
              initialDelaySeconds: 1200
              periodSeconds: 5
          volumes:
          - name: dshm
            emptyDir:
                medium: Memory
          nodeSelector:
            cloud.google.com/gke-accelerator: nvidia-b200
            cloud.google.com/reservation-name: $RESERVATION_URL
            cloud.google.com/reservation-affinity: "specific"
            cloud.google.com/gke-gpu-driver-version: latest
    ---
    apiVersion: v1
    kind: Service
    metadata:
      name: oss-service
    spec:
      selector:
        app: gpt-oss
      type: ClusterIP
      ports:
        - protocol: TCP
          port: 8000
          targetPort: 8000
    ---
    apiVersion: monitoring.googleapis.com/v1
    kind: PodMonitoring
    metadata:
      name: vllm-gpt-oss-monitoring
    spec:
      selector:
        matchLabels:
          app: gpt-oss
      endpoints:
      - port: 8000
        path: /metrics
        interval: 30s
    
  2. vllm-gpt-oss-120b.yaml 文件应用于 GKE 集群:

    envsubst < vllm-gpt-oss-120b.yaml | kubectl apply -f -
    
  3. 在部署过程中,容器必须从 Hugging Face 下载 gpt-oss-120b 模型。因此,容器的部署可能需要长达 20 分钟才能完成。

  4. 如需查看完成状态,请运行以下命令:

    kubectl wait \
    --for=condition=Available \
    --timeout=1200s deployment/vllm-gpt-oss-deployment
    

    --timeout=1200s 标志允许该命令监控部署长达 20 分钟。

使用 curl 与 gpt-oss 模型互动

如需验证您部署的 gpt-oss 模型,请执行以下操作:

  1. 设置到 gpt-oss 模型的端口转发:

    kubectl port-forward service/oss-service 8000:8000
    
  2. 打开一个新终端窗口。然后,您可以使用 curl 与模型聊天:

    curl http://127.0.0.1:8000/v1/chat/completions \
    -X POST \
    -H "Content-Type: application/json" \
    -d '{
      "model": "openai/gpt-oss-120b",
      "messages": [
        {
          "role": "user",
          "content": "Describe a sailboat in one short sentence?"
        }
      ]
    }'
    
  3. 您看到的输出类似于以下内容:

    {
      "id": "chatcmpl-2235c39759c040daae23ce2addc40c0a",
      "object": "chat.completion",
      "created": 1756831629,
      "model": "openai/gpt-oss-120b",
      "choices": [
        {
          "index": 0,
          "message": {
            "role": "assistant",
            "content": "A sleek vessel gliding on water, its cloth sails billowing like captured wind.",
            "refusal": null,
            "annotations": null,
            "audio": null,
            "function_call": null,
            "tool_calls": [],
            "reasoning_content": "User asks: \"Describe a sailboat in one short sentence?\" We need to produce a short sentence description. Should comply with policy. It's fine. Provide a short sentence."
          },
          "logprobs": null,
          "finish_reason": "stop",
          "stop_reason": null
        }
      ],
      "service_tier": null,
      "system_fingerprint": null,
      "usage": {
        "prompt_tokens": 80,
        "total_tokens": 142,
        "completion_tokens": 62,
        "prompt_tokens_details": null
      },
      "prompt_logprobs": null,
      "kv_transfer_params": null
    }
    

    观察模型的性能

如需观察模型的性能,您可以使用 Cloud Monitoring 中的 vLLM 信息中心集成。此信息中心可帮助您查看模型的关键性能指标,例如令牌吞吐量、网络延迟时间和错误率。如需了解 详情,请参阅 vLLM中的 vLLM。

清理

为避免因本教程中使用的资源导致您的 Google Cloud 账号产生费用,请删除包含这些资源的项目,或者保留项目但删除各个资源。

删除项目

删除项目: Google Cloud

gcloud projects delete PROJECT_ID

删除资源

  1. 如需删除 vllm-gpt-oss-120b.yaml 文件中的部署和服务以及 GKE 集群中的 Kubernetes Secret,请运行以下命令:

    kubectl delete -f vllm-gpt-oss-120b.yaml
    kubectl delete secret hf-secret
    
  2. 如需删除 GKE 集群,请执行以下操作:

    gcloud container clusters delete $CLUSTER_NAME \
    --region=$REGION
    

后续步骤