In dieser Anleitung wird gezeigt, wie Sie ein gpt-oss-120b,
Sprachmodell mit dem vLLM-Framework bereitstellen und ausführen.
Sie stellen dieses Modell in einem GKE-Autopilot-Cluster (Google Kubernetes Engine) bereit und
verwenden eine einzelne A4-VM (virtuelle Maschine) mit 8 B200-GPUs.
Diese Anleitung richtet sich an ML-Entwickler (Machine Learning), Plattformadministratoren und -betreiber sowie an Daten- und KI-Experten, die Kubernetes-Container-Orchestrierungsfunktionen verwenden möchten, um Inferenzarbeitslasten zu verarbeiten.
Ziele
- Über Hugging Face auf
gpt-oss-120bzugreifen. - Umgebung vorbereiten.
- GKE-Cluster im Autopilot-Modus erstellen.
- Kubernetes-Secret für Hugging Face-Anmeldedaten erstellen.
- vLLM-Container in Ihrem GKE-Cluster bereitstellen.
- Mithilfe von „curl“ mit dem gpt-oss Sprachmodell interagieren.
- Bereinigen.
Kosten
In dieser Anleitung werden kostenpflichtige Komponenten von Google Cloud verwendet, darunter:
Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen.
Hinweis
- Melden Sie sich in Ihrem Google Cloud Konto an. Wenn Sie mit Google Cloudnoch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
-
Installieren Sie die Google Cloud CLI.
-
Wenn Sie einen externen Identitätsanbieter (IdP) verwenden, müssen Sie sich zuerst mit Ihrer föderierten Identität in der gcloud CLI anmelden.
-
Führen Sie den folgenden Befehl aus, um die gcloud CLI zu initialisieren:
gcloud init -
Erstellen oder wählen Sie ein Google Cloud Projekt aus.
Rollen, die zum Auswählen oder Erstellen eines Projekts erforderlich sind
- Projekt auswählen: Für die Auswahl eines Projekts ist keine bestimmte IAM-Rolle erforderlich. Sie können ein beliebiges Projekt auswählen, für das Ihnen eine Rolle zugewiesen wurde.
-
Projekt erstellen: Zum Erstellen eines Projekts benötigen Sie die Rolle „Projektersteller“
(
roles/resourcemanager.projectCreator), die dieresourcemanager.projects.createBerechtigung enthält. Rollen zuweisen.
-
Projekt erstellen: Google Cloud
gcloud projects create PROJECT_ID
Ersetzen Sie
PROJECT_IDdurch einen Namen für das Google Cloud Projekt, das Sie erstellen. -
Wählen Sie das Google Cloud Projekt aus, das Sie erstellt haben:
gcloud config set project PROJECT_ID
Ersetzen Sie
PROJECT_IDdurch Ihren Google Cloud Projektnamen.
-
Prüfen Sie, ob für Ihr Google Cloud Projekt die Abrechnung aktiviert ist.
Aktivieren Sie die erforderliche API:
Rollen, die zum Aktivieren von APIs erforderlich sind
Zum Aktivieren von APIs benötigen Sie die IAM-Rolle „Service Usage-Administrator“ (
roles/serviceusage.serviceUsageAdmin), die die Berechtigungserviceusage.services.enableenthält. Rollen zuweisen.gcloud services enable container.googleapis.com
-
Installieren Sie die Google Cloud CLI.
-
Wenn Sie einen externen Identitätsanbieter (IdP) verwenden, müssen Sie sich zuerst mit Ihrer föderierten Identität in der gcloud CLI anmelden.
-
Führen Sie den folgenden Befehl aus, um die gcloud CLI zu initialisieren:
gcloud init -
Erstellen oder wählen Sie ein Google Cloud Projekt aus.
Rollen, die zum Auswählen oder Erstellen eines Projekts erforderlich sind
- Projekt auswählen: Für die Auswahl eines Projekts ist keine bestimmte IAM-Rolle erforderlich. Sie können ein beliebiges Projekt auswählen, für das Ihnen eine Rolle zugewiesen wurde.
-
Projekt erstellen: Zum Erstellen eines Projekts benötigen Sie die Rolle „Projektersteller“
(
roles/resourcemanager.projectCreator), die dieresourcemanager.projects.createBerechtigung enthält. Rollen zuweisen.
-
Projekt erstellen: Google Cloud
gcloud projects create PROJECT_ID
Ersetzen Sie
PROJECT_IDdurch einen Namen für das Google Cloud Projekt, das Sie erstellen. -
Wählen Sie das Google Cloud Projekt aus, das Sie erstellt haben:
gcloud config set project PROJECT_ID
Ersetzen Sie
PROJECT_IDdurch Ihren Google Cloud Projektnamen.
-
Prüfen Sie, ob für Ihr Google Cloud Projekt die Abrechnung aktiviert ist.
Aktivieren Sie die erforderliche API:
Rollen, die zum Aktivieren von APIs erforderlich sind
Zum Aktivieren von APIs benötigen Sie die IAM-Rolle „Service Usage-Administrator“ (
roles/serviceusage.serviceUsageAdmin), die die Berechtigungserviceusage.services.enableenthält. Rollen zuweisen.gcloud services enable container.googleapis.com
-
Weisen Sie Ihrem Nutzerkonto Rollen zu. Führen Sie den folgenden Befehl für jede der folgenden IAM-Rollen einmal aus:
roles/container.admingcloud projects add-iam-policy-binding PROJECT_ID --member="user:USER_IDENTIFIER" --role=ROLE
Ersetzen Sie Folgendes:
PROJECT_ID: Ihre Projekt-ID.USER_IDENTIFIER: Die Kennung für Ihr Nutzerkonto. Beispiel:myemail@example.com.ROLE: Die IAM-Rolle, die Sie Ihrem Nutzerkonto zuweisen.
- Melden Sie sich in einem Hugging Face Konto an oder erstellen Sie ein Konto.
Über Hugging Face auf „gpt-oss“ zugreifen
So greifen Sie über Hugging Face auf „gpt-oss“ zu:
- Melden Sie sich bei Hugging Face an und sehen Sie sich das „gpt-oss“-Modell an.
- Erstellen Sie ein Hugging Face-
readZugriffstoken. - Kopieren und speichern Sie den Wert des
read access-Tokens. Sie verwenden es später in dieser Anleitung.
Umgebung vorbereiten
Legen Sie die Standardumgebungsvariablen fest, um Ihre Umgebung vorzubereiten:
gcloud config set project PROJECT_ID
gcloud config set billing/quota_project PROJECT_ID
export PROJECT_ID=$(gcloud config get project)
export RESERVATION_URL=RESERVATION_URL
export REGION=REGION
export CLUSTER_NAME=CLUSTER_NAME
export HUGGING_FACE_TOKEN=HUGGING_FACE_TOKEN
export NETWORK=NETWORK_NAME
export SUBNETWORK=SUBNETWORK_NAME
Ersetzen Sie Folgendes:
PROJECT_ID: Die ID des Google Cloud Projekts in dem Sie den GKE-Cluster erstellen möchten.RESERVATION_URL: Die URL der Reservierung, die Sie zum Erstellen Ihres GKE-Cluster verwenden möchten. Geben Sie je nach Projekt, in dem sich die Reservierung befindet, einen der folgenden Werte an:Die Reservierung befindet sich in Ihrem Projekt:
RESERVATION_NAMEDie Reservierung befindet sich in einem anderen Projekt und Ihr Projekt kann sie verwenden:
projects/RESERVATION_PROJECT_ID/reservations/RESERVATION_NAME
REGION: Die Region, in der Sie Ihren GKE-Cluster erstellen möchten. Sie können den Cluster nur in der Region erstellen, in der sich Ihre Reservierung befindet.CLUSTER_NAME: Der Name des zu erstellenden GKE-Cluster.HUGGING_FACE_TOKEN: Das Hugging Face-Zugriffstoken, das Sie im vorherigen Abschnitt erstellt haben.NETWORK_NAME: Das Netzwerk, das der GKE-Cluster verwendet. Geben Sie einen der folgenden Werte an:Wenn Sie ein benutzerdefiniertes Netzwerk erstellt haben, geben Sie den Namen Ihres Netzwerks an.
Geben Sie andernfalls
defaultan.
SUBNETWORK_NAME: Das Subnetzwerk, das der GKE-Cluster verwendet. Geben Sie einen der folgenden Werte an:Wenn Sie ein benutzerdefiniertes Subnetzwerk erstellt haben, geben Sie den Namen Ihres Subnetzwerks an. Sie können nur ein Subnetzwerk angeben, das sich in derselben Region wie die Reservierung befindet.
Geben Sie andernfalls
defaultan.
GKE-Cluster im Autopilot-Modus erstellen
Führen Sie den folgenden Befehl aus, um einen GKE-Cluster im Autopilot-Modus zu erstellen:
gcloud container clusters create-auto $CLUSTER_NAME \
--project=$PROJECT_ID \
--region=$REGION \
--release-channel=rapid \
--network=$NETWORK \
--subnetwork=$SUBNETWORK
Das Erstellen des GKE-Cluster kann einige Zeit dauern. Prüfen Sie in der Google Cloud Console unter „ Kubernetes-Cluster“, ob die Erstellung des Clusters abgeschlossen ist. Google Cloud
Kubernetes-Secret für Hugging Face-Anmeldedaten erstellen
So erstellen Sie ein Kubernetes-Secret für Hugging Face-Anmeldedaten:
Konfigurieren Sie
kubectlfür die Kommunikation mit Ihrem GKE-Cluster:gcloud container clusters get-credentials $CLUSTER_NAME \ --location=$REGIONErstellen Sie ein Kubernetes-Secret, um Ihr Hugging Face-Token zu speichern:
kubectl create secret generic hf-secret \ --from-literal=hf_token=${HUGGING_FACE_TOKEN} \ --dry-run=client -o yaml | kubectl apply -f -
vLLM-Container in Ihrem GKE-Cluster bereitstellen
Erstellen Sie eine
vllm-gpt-oss-120b.yaml-Datei mit Ihrer ausgewählten vLLM-Bereitstellung:apiVersion: apps/v1 kind: Deployment metadata: name: vllm-gpt-oss-deployment spec: replicas: 1 selector: matchLabels: app: gpt-oss template: metadata: labels: app: gpt-oss ai.gke.io/model: gpt-oss-120b ai.gke.io/inference-server: vllm examples.ai.gke.io/source: user-guide spec: containers: - name: vllm-inference image: us-docker.pkg.dev/vertex-ai/vertex-vision-model-garden-dockers/pytorch-vllm-serve:20250822_0916_RC01 resources: requests: cpu: "10" memory: "128Gi" ephemeral-storage: "240Gi" nvidia.com/gpu: "8" limits: cpu: "10" memory: "128Gi" ephemeral-storage: "240Gi" nvidia.com/gpu: "8" command: ["python3", "-m", "vllm.entrypoints.openai.api_server"] args: - --model=$(MODEL_ID) - --tensor-parallel-size=2 - --host=0.0.0.0 - --port=8000 - --max-model-len=8192 - --max-num-seqs=4 env: - name: MODEL_ID value: openai/gpt-oss-120b - name: HUGGING_FACE_HUB_TOKEN valueFrom: secretKeyRef: name: hf-secret key: hf_token volumeMounts: - mountPath: /dev/shm name: dshm livenessProbe: httpGet: path: /health port: 8000 initialDelaySeconds: 1200 periodSeconds: 10 readinessProbe: httpGet: path: /health port: 8000 initialDelaySeconds: 1200 periodSeconds: 5 volumes: - name: dshm emptyDir: medium: Memory nodeSelector: cloud.google.com/gke-accelerator: nvidia-b200 cloud.google.com/reservation-name: $RESERVATION_URL cloud.google.com/reservation-affinity: "specific" cloud.google.com/gke-gpu-driver-version: latest --- apiVersion: v1 kind: Service metadata: name: oss-service spec: selector: app: gpt-oss type: ClusterIP ports: - protocol: TCP port: 8000 targetPort: 8000 --- apiVersion: monitoring.googleapis.com/v1 kind: PodMonitoring metadata: name: vllm-gpt-oss-monitoring spec: selector: matchLabels: app: gpt-oss endpoints: - port: 8000 path: /metrics interval: 30sWenden Sie die Datei
vllm-gpt-oss-120b.yamlauf Ihren GKE-Cluster an:envsubst < vllm-gpt-oss-120b.yaml | kubectl apply -f -Während der Bereitstellung muss der Container das
gpt-oss-120b-Modell von Hugging Face herunterladen. Daher kann die Bereitstellung des Containers bis zu 20 Minuten dauern.Führen Sie den folgenden Befehl aus, um den Abschlussstatus zu sehen:
kubectl wait \ --for=condition=Available \ --timeout=1200s deployment/vllm-gpt-oss-deploymentMit dem Flag
--timeout=1200skann der Befehl die Bereitstellung bis zu 20 Minuten lang überwachen.
Mithilfe von „curl“ mit dem gpt-oss-Modell interagieren
So prüfen Sie das bereitgestellte gpt-oss-Modell:
Richten Sie die Portweiterleitung zum
gpt-oss-Modell ein:kubectl port-forward service/oss-service 8000:8000Öffnen Sie ein neues Terminalfenster. Sie können dann mit Ihrem Modell chatten, indem Sie
curlverwenden:curl http://127.0.0.1:8000/v1/chat/completions \ -X POST \ -H "Content-Type: application/json" \ -d '{ "model": "openai/gpt-oss-120b", "messages": [ { "role": "user", "content": "Describe a sailboat in one short sentence?" } ] }'Die Ausgabe sieht in etwa so aus:
{ "id": "chatcmpl-2235c39759c040daae23ce2addc40c0a", "object": "chat.completion", "created": 1756831629, "model": "openai/gpt-oss-120b", "choices": [ { "index": 0, "message": { "role": "assistant", "content": "A sleek vessel gliding on water, its cloth sails billowing like captured wind.", "refusal": null, "annotations": null, "audio": null, "function_call": null, "tool_calls": [], "reasoning_content": "User asks: \"Describe a sailboat in one short sentence?\" We need to produce a short sentence description. Should comply with policy. It's fine. Provide a short sentence." }, "logprobs": null, "finish_reason": "stop", "stop_reason": null } ], "service_tier": null, "system_fingerprint": null, "usage": { "prompt_tokens": 80, "total_tokens": 142, "completion_tokens": 62, "prompt_tokens_details": null }, "prompt_logprobs": null, "kv_transfer_params": null }Leistung des Modells beobachten
Sie können die Leistung Ihres Modells mit der vLLM-Dashboard-Integration in Cloud Monitoring beobachten. Auf diesem Dashboard können Sie wichtige Leistungsmesswerte für Ihr Modell wie Token-Durchsatz, Netzwerklatenz und Fehlerraten sehen. Weitere Informationen finden Sie in der Monitoring-Dokumentation unter vLLM.
Bereinigen
Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.
Projekt löschen
Projekt löschen: Google Cloud
gcloud projects delete PROJECT_ID
Ressourcen löschen
Führen Sie Folgendes aus, um die Bereitstellung und den Dienst in der Datei
vllm-gpt-oss-120b.yamlund das Kubernetes-Secret aus dem GKE-Cluster zu löschen:kubectl delete -f vllm-gpt-oss-120b.yaml kubectl delete secret hf-secretSo löschen Sie Ihren GKE-Cluster:
gcloud container clusters delete $CLUSTER_NAME \ --region=$REGION