Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

在 GKE 上使用 vLLM 来提供 Gemma 3 27B 推理

本教程介绍如何使用 vLLM 部署框架部署和投放 Gemma 3 27B 大语言模型 (LLM)。您可以在 Google Kubernetes Engine (GKE) 上的单个 A4 虚拟机 (VM) 实例上部署 Gemma 3。

本教程适用于机器学习 (ML) 工程师、平台管理员和运维人员，以及对使用 Kubernetes 容器编排功能处理推理工作负载感兴趣的数据和 AI 专家。

目标

使用 Hugging Face 访问 Gemma 3。
准备环境。
在 Autopilot 模式下创建 GKE 集群。
为 Hugging Face 凭据创建 Kubernetes Secret。
将 vLLM 容器部署到 GKE 集群。
使用 curl 与 Gemma 3 互动。
清理。

费用

本教程使用 Google Cloud 的以下收费组件：

如需根据您的预计使用量来估算费用，请使用价格计算器。

准备工作

登录您的 Google Cloud 账号。如果您是 Google Cloud新手，请创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金，用于运行、测试和部署工作负载。

安装 Google Cloud CLI。

如果您使用的是外部身份提供方 (IdP)，则必须先使用联合身份登录 gcloud CLI。

如需初始化 gcloud CLI，请运行以下命令：

gcloud init

创建或选择 Google Cloud 项目。

选择或创建项目所需的角色

选择项目：选择项目不需要特定的 IAM 角色，您可以选择已获授角色的任何项目。
创建项目：如需创建项目，您需要拥有 Project Creator 角色 (roles/resourcemanager.projectCreator)，该角色包含 resourcemanager.projects.create 权限。了解如何授予角色。

创建 Google Cloud 项目：
```
gcloud projects create PROJECT_ID
```
将 PROJECT_ID 替换为您要创建的 Google Cloud 项目的名称。
选择您创建的 Google Cloud 项目：
```
gcloud config set project PROJECT_ID
```
将 PROJECT_ID 替换为您的 Google Cloud 项目名称。

验证是否已为您的 Google Cloud 项目启用结算功能。

启用所需的 API：

启用 API 所需的角色

如需启用 API，您需要拥有 Service Usage Admin IAM 角色 (roles/serviceusage.serviceUsageAdmin)，该角色包含 serviceusage.services.enable 权限。了解如何授予角色。

gcloud services enable container.googleapis.com

安装 Google Cloud CLI。

如果您使用的是外部身份提供方 (IdP)，则必须先使用联合身份登录 gcloud CLI。

如需初始化 gcloud CLI，请运行以下命令：

gcloud init

创建或选择 Google Cloud 项目。

选择或创建项目所需的角色

选择项目：选择项目不需要特定的 IAM 角色，您可以选择已获授角色的任何项目。
创建项目：如需创建项目，您需要拥有 Project Creator 角色 (roles/resourcemanager.projectCreator)，该角色包含 resourcemanager.projects.create 权限。了解如何授予角色。

创建 Google Cloud 项目：
```
gcloud projects create PROJECT_ID
```
将 PROJECT_ID 替换为您要创建的 Google Cloud 项目的名称。
选择您创建的 Google Cloud 项目：
```
gcloud config set project PROJECT_ID
```
将 PROJECT_ID 替换为您的 Google Cloud 项目名称。

验证是否已为您的 Google Cloud 项目启用结算功能。

启用所需的 API：

启用 API 所需的角色

如需启用 API，您需要拥有 Service Usage Admin IAM 角色 (roles/serviceusage.serviceUsageAdmin)，该角色包含 serviceusage.services.enable 权限。了解如何授予角色。

gcloud services enable container.googleapis.com

向您的用户账号授予角色。对以下每个 IAM 角色运行以下命令一次： roles/container.admin
```
gcloud projects add-iam-policy-binding PROJECT_ID --member="user:USER_IDENTIFIER" --role=ROLE
```
替换以下内容：
- PROJECT_ID：您的项目 ID。
- USER_IDENTIFIER：您的用户账号的标识符。例如，myemail@example.com。
- ROLE：您向用户账号授予的 IAM 角色。
登录或创建 Hugging Face 账号。

使用 Hugging Face 访问 Gemma 3

如需使用 Hugging Face 访问 Gemma 3，请执行以下操作：

登录 Hugging Face
创建 Hugging Face read 访问令牌。依次点击您的个人资料 > 设置 > 访问令牌 > +创建新令牌
复制并保存 read access 令牌值。您将在本教程的后面部分使用该地址。

准备环境

如需准备环境，请设置默认环境变量：

export PROJECT_ID="YOUR_PROJECT_ID"
export RESERVATION_URL="YOUR_RESERVATION_URL"
export REGION="YOUR_REGION"
export CLUSTER_NAME="YOUR_CLUSTER_NAME"
export HUGGING_FACE_TOKEN="YOUR_HF_TOKEN"
export NETWORK="NETWORK_NAME"
export SUBNETWORK="SUBNETWORK_NAME"

gcloud config set project "${PROJECT_ID}"
gcloud config set billing/quota_project "${PROJECT_ID}"

替换以下内容：

PROJECT_ID：您要在其中创建 GKE 集群的 Google Cloud 项目的 ID。
RESERVATION_URL：您要用于创建 GKE 集群的预留的网址。根据预留所在的项目，指定以下值之一：
- 预留存在于您的项目中：RESERVATION_NAME
- 预留存在于其他项目中，并且您的项目可以使用该预留：projects/RESERVATION_PROJECT_ID/reservations/RESERVATION_NAME
REGION：您要在其中创建 GKE 集群的区域。您只能在预留所在的区域中创建集群。
CLUSTER_NAME：要创建的 GKE 集群的名称。
HUGGING_FACE_TOKEN：您在上一部分中创建的 Hugging Face 访问令牌。
NETWORK：GKE 集群使用的网络。请指定以下某个值：
- 如果您创建了自定义网络，请指定您的网络名称。
- 否则，请指定 default。
SUBNETWORK：GKE 集群使用的子网。请指定以下某个值：
- 如果您创建了自定义子网，请指定子网的名称。您只能指定与预留位于同一区域的子网。
- 否则，请指定 default。

在 Autopilot 模式下创建 GKE 集群

如需在 Autopilot 模式下创建 GKE 集群，请运行以下命令：

gcloud container clusters create-auto $CLUSTER_NAME \
    --project=$PROJECT_ID \
    --region=$REGION \
    --release-channel=rapid \
    --network=$NETWORK \
    --subnetwork=$SUBNETWORK

创建 GKE 集群可能需要一些时间才能完成。如需验证 Google Cloud 是否已完成集群创建，请前往 Google Cloud 控制台中的 Kubernetes 集群。

为 Hugging Face 凭据创建 Kubernetes Secret

如需为 Hugging Face 凭据创建 Kubernetes Secret，请按以下步骤操作：

配置 kubectl 以与您的 GKE 集群通信：

gcloud container clusters get-credentials $CLUSTER_NAME \
    --location=$REGION

创建一个 Kubernetes Secret 来存储您的 Hugging Face 令牌：

kubectl create secret generic hf-secret \
    --from-literal=hf_api_token=${HUGGING_FACE_TOKEN} \
    --dry-run=client -o yaml | kubectl apply -f -

将 vLLM 容器部署到 GKE 集群

如需部署 vLLM 容器以使用 Kubernetes Deployment 投放 Gemma 3 27B 模型，请按以下步骤操作：

创建一个 vllm-3-27b-it.yaml 文件，其中包含您选择的 vLLM 部署：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: vllm-gemma-deployment
spec:
  progressDeadlineSeconds: 900
  replicas: 1
  selector:
    matchLabels:
      app: gemma-server
  template:
    metadata:
      labels:
        app: gemma-server
        ai.gke.io/model: gemma-3-27b-it
        ai.gke.io/inference-server: vllm
        examples.ai.gke.io/source: user-guide
    spec:
      containers:
      - name: inference-server
        image: us-docker.pkg.dev/vertex-ai/vertex-vision-model-garden-dockers/pytorch-vllm-serve:20250801_0916_RC01
        resources:
          requests:
            cpu: "10"
            memory: "128Gi"
            ephemeral-storage: "120Gi"
            nvidia.com/gpu: "8"
          limits:
            cpu: "10"
            memory: "128Gi"
            ephemeral-storage: "120Gi"
            nvidia.com/gpu: "8"
        command: ["python3", "-m", "vllm.entrypoints.openai.api_server"]
        args:
        - --model=$(MODEL_ID)
        - --tensor-parallel-size=8
        - --host=0.0.0.0
        - --port=8000
        - --max-model-len=4096
        - --max-num-seqs=4
        env:
        - name: MODEL_ID
          value: google/gemma-3-27b-it
        - name: HUGGING_FACE_HUB_TOKEN
          valueFrom:
            secretKeyRef:
              name: hf-secret
              key: hf_api_token
        volumeMounts:
        - mountPath: /dev/shm
          name: dshm
        livenessProbe:
          httpGet:
            path: /health
            port: 8000
          initialDelaySeconds: 720
          periodSeconds: 10
        readinessProbe:
          httpGet:
            path: /health
            port: 8000
          initialDelaySeconds: 720
          periodSeconds: 5
      volumes:
      - name: dshm
        emptyDir:
            medium: Memory
      nodeSelector:
        cloud.google.com/gke-accelerator: nvidia-b200
        cloud.google.com/reservation-name: $RESERVATION_URL
        cloud.google.com/reservation-affinity: "specific"
        cloud.google.com/gke-gpu-driver-version: latest
---
apiVersion: v1
kind: Service
metadata:
  name: llm-service
spec:
  selector:
    app: gemma-server
  type: ClusterIP
  ports:
    - protocol: TCP
      port: 8000
      targetPort: 8000

将 vllm-3-27b-it.yaml 文件应用于您的 GKE 集群：
```
envsubst < vllm-3-27b-it.yaml | kubectl apply -f -
```
在部署过程中，容器必须从 Hugging Face 下载 Gemma 3。因此，容器的部署可能需要长达 30 分钟才能完成。

等待部署完成：

kubectl wait \
    --for=condition=Available \
    --timeout=1800s deployment/vllm-gemma-deployment

使用 curl 与 Gemma 3 互动

如需验证已部署的 Gemma 3 27B 指令调优模型，请按以下步骤操作：

设置到 Gemma 3 的端口转发：

kubectl port-forward service/llm-service 8000:8000

打开一个新终端窗口。然后，您可以使用 curl 与模型聊天：

curl http://127.0.0.1:8000/v1/chat/completions \
-X POST \
-H "Content-Type: application/json" \
-d '{
  "model": "google/gemma-3-27b-it",
  "messages": [
    {
      "role": "user",
      "content": "Why is the sky blue?"
    }
  ]
}' | jq .

输出类似于以下内容：

{
  "id": "chatcmpl-e4a2e624bea849d9b09f838a571c4d9e",
  "object": "chat.completion",
  "created": 1741763029,
  "model": "google/gemma-3-27b-it",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "reasoning_content": null,
        "content": "Okay, let's break down why the sky appears blue! It's a fascinating phenomenon rooted in physics, specifically something called **Rayleigh scattering**. Here's the explanation: ...",
        "tool_calls": []
      },
      "logprobs": null,
      "finish_reason": "stop",
      "stop_reason": 106
    }
  ],
  "usage": {
    "prompt_tokens": 15,
    "total_tokens": 668,
    "completion_tokens": 653,
    "prompt_tokens_details": null
  },
  "prompt_logprobs": null
}

如果您想观察模型的性能，可以使用 Cloud Monitoring 中的 vLLM 信息中心集成。此信息中心可帮助您查看模型的重要性能指标，例如令牌吞吐量、网络延迟时间和错误率。如需了解详情，请参阅 Monitoring 文档中的 vLLM。

清理

为避免因本教程中使用的资源导致您的 Google Cloud 账号产生费用，请删除包含这些资源的项目，或者保留项目但删除各个资源。

删除资源

如需删除 vllm-3-27b-it.yaml 文件中定义的部署和服务以及 GKE 集群中的 Kubernetes Secret，请运行以下命令：
```
envsubst < vllm-3-27b-it.yaml | kubectl delete -f -
kubectl delete secret hf-secret
```

如需删除 GKE 集群，请运行以下命令：

gcloud container clusters delete $CLUSTER_NAME \
    --region=$REGION \
    --quiet

删除项目

删除 Google Cloud 项目：

gcloud projects delete PROJECT_ID

后续步骤

管理 AI 优化型 GKE 集群