Diese Seite wurde von der Cloud Translation API übersetzt.

Modell mit einer einzelnen GPU in GKE bereitstellen

Autopilot Standard

In dieser Anleitung erfahren Sie, wie Sie ein Large Language Model (LLM) mit GPUs in Google Kubernetes Engine (GKE) mit NVIDIA Triton Inference Server und TensorFlow Serving bereitstellen und verfügbar machen. Dies bietet eine Grundlage für das Verständnis und die Untersuchung der praktischen LLM-Bereitstellung für die Inferenz in einer verwalteten Kubernetes-Umgebung. Sie stellen einen vorgefertigten Container in einem GKE-Cluster mit einer einzelnen L4 Tensor Core-GPU bereit und bereiten die GKE-Infrastruktur für die Onlineinferenz vor.

Diese Anleitung richtet sich an Entwickler von maschinellem Lernen (ML), Plattformadministratoren und ‑operatoren sowie an Daten- und KI-Spezialisten, die ein vortrainiertes ML-Modell in einem GKE-Cluster hosten möchten. Weitere Informationen zu gängigen Rollen und Beispielaufgaben, auf die in Google Cloud-Inhalten verwiesen wird, finden Sie unter Häufig verwendete GKE-Nutzerrollen und -Aufgaben.

Machen Sie sich vor dem Lesen dieser Seite mit den folgenden Themen vertraut:

Ziele

Erstellen Sie einen GKE Autopilot- oder Standard-Cluster.
Cloud Storage-Bucket konfigurieren, in dem sich das vortrainierte Modell befindet
Stellen Sie das ausgewählte Online-Inferenz-Framework bereit.
Stellen Sie eine Testanfrage an den bereitgestellten Dienst.

Kosten

In dieser Anleitung werden die folgenden kostenpflichtigen Komponenten von Google Cloudverwendet:

GKE
Cloud Storage
L4-GPU-Beschleuniger
Ausgehender Traffic

Sie können mithilfe des Preisrechners eine Kostenschätzung für Ihre voraussichtliche Nutzung erstellen.

Nach Abschluss dieser Anleitung können Sie weitere Kosten durch Löschen von erstellten Ressourcen vermeiden. Weitere Informationen finden Sie unter Bereinigen.

Vorbereitung

Projekt einrichten

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, click Create project to begin creating a new Google Cloud project.

Roles required to create a project

To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the GKE API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, click Create project to begin creating a new Google Cloud project.

Roles required to create a project

To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the GKE API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Standardeinstellungen für die Google Cloud CLI festlegen

Starten Sie in der Google Cloud Console eine Cloud Shell-Instanz:
Cloud Shell öffnen

Laden Sie den Quellcode für diese Beispielanwendung herunter:

git clone https://github.com/GoogleCloudPlatform/kubernetes-engine-samples
cd kubernetes-engine-samples/ai-ml/gke-online-serving-single-gpu

Legen Sie die Standardumgebungsvariablen fest:
```
gcloud config set project PROJECT_ID
gcloud config set compute/region COMPUTE_REGION
```
Ersetzen Sie die folgenden Werte:
- PROJECT_ID: Ihre Google Cloud Projekt-ID.
- COMPUTE_REGION: die Compute Engine-Region, die den Beschleunigertyp unterstützt, den Sie verwenden möchten, z. B. us-central1 für L4-GPU.

Erstellen Sie in Cloud Shell die folgenden Umgebungsvariablen:

export PROJECT_ID=$(gcloud config get project)
export REGION=$(gcloud config get compute/region)
export K8S_SA_NAME=gpu-k8s-sa
export GSBUCKET=$PROJECT_ID-gke-bucket
export MODEL_NAME=mnist
export CLUSTER_NAME=online-serving-cluster

GKE-Cluster erstellen

Sie können Modelle auf einer einzelnen GPU in einem GKE Autopilot- oder Standardcluster bereitstellen. Für eine vollständig verwaltete Kubernetes-Umgebung empfehlen wir die Verwendung eines Autopilot-Clusters. Mit GKE Autopilot werden die Ressourcen automatisch basierend auf den Modellanfragen skaliert.

Informationen zum Auswählen des GKE-Betriebsmodus, der für Ihre Arbeitslasten am besten geeignet ist, finden Sie unter GKE-Betriebsmodus auswählen.

Autopilot

Führen Sie den folgenden Befehl aus, um einen GKE Autopilot-Cluster zu erstellen:

  gcloud container clusters create-auto ${CLUSTER_NAME} \
      --location=${REGION} \
      --project=${PROJECT_ID} \
      --release-channel=rapid

GKE erstellt einen Autopilot-Cluster mit CPU- und GPU-Knoten, wie von den bereitgestellten Arbeitslasten angefordert.

Standard

Führen Sie den folgenden Befehl aus, um einen GKE-Standardcluster zu erstellen:

  gcloud container clusters create ${CLUSTER_NAME} \
    --project=${PROJECT_ID}  \
    --location=${REGION}  \
    --workload-pool=${PROJECT_ID}.svc.id.goog \
    --addons GcsFuseCsiDriver \
    --release-channel=rapid \
    --num-nodes=1

Die Erstellung eines Clusters kann einige Minuten dauern.

Führen Sie den folgenden Befehl aus, um den Knotenpool zu erstellen:

  gcloud container node-pools create gpupool \
    --accelerator type=nvidia-l4,count=1,gpu-driver-version=latest \
    --project=${PROJECT_ID} \
    --location=${REGION} \
    --node-locations=${REGION}-a \
    --cluster=${CLUSTER_NAME} \
    --machine-type=g2-standard-8 \
    --num-nodes=1

GKE erstellt einen einzelnen Knotenpool mit einer L4-GPU für jeden Knoten.

Cloud Storage-Bucket erstellen

Erstellen Sie einen Cloud Storage-Bucket zum Speichern des vortrainierten Modells, das bereitgestellt werden soll.

Führen Sie in Cloud Shell folgenden Befehl aus:

gcloud storage buckets create gs://$GSBUCKET

Cluster für den Zugriff auf den Bucket mithilfe der Identitätsföderation von Arbeitslasten für GKE konfigurieren

So gewähren Sie dem Cluster Zugriff auf den Cloud Storage-Bucket:

Erstellen Sie ein Google Cloud Dienstkonto.
Erstellen Sie ein Kubernetes-Dienstkonto in Ihrem Cluster.
Binden Sie das Kubernetes-Dienstkonto an das Google Cloud -Dienstkonto.

Google Cloud Dienstkonto erstellen

Wechseln Sie in der Google Cloud Console zur Seite Dienstkonto erstellen:

Zur Seite „Dienstkonto erstellen“
Geben Sie im Feld Dienstkonto-ID gke-ai-sa ein.
Klicken Sie auf Erstellen und fortfahren.
Wählen Sie in der Liste Rolle die Rolle Cloud Storage > Storage Insights Collector Service aus.
Klicken Sie auf Weitere Rolle hinzufügen.
Wählen Sie in der Liste Rolle auswählen die Rolle Cloud Storage > Storage Object Admin aus.
Klicken Sie auf Weiter und dann auf Fertig.

Kubernetes-Dienstkonto in Ihrem Cluster erstellen

Gehen Sie in Cloud Shell so vor:

Erstellen Sie einen Kubernetes-Namespace:

kubectl create namespace gke-ai-namespace

Erstellen Sie ein Kubernetes-Dienstkonto im Namespace:

kubectl create serviceaccount gpu-k8s-sa --namespace=gke-ai-namespace

Kubernetes-Dienstkonto an das Google Cloud -Dienstkonto binden

Führen Sie in Cloud Shell die folgenden Befehle aus:

Fügen Sie dem Dienstkonto Google Cloud eine IAM-Bindung hinzu:

gcloud iam service-accounts add-iam-policy-binding gke-ai-sa@PROJECT_ID.iam.gserviceaccount.com \
    --role roles/iam.workloadIdentityUser \
    --member "serviceAccount:PROJECT_ID.svc.id.goog[gke-ai-namespace/gpu-k8s-sa]"

Das Flag --member stellt die vollständige Identität des Kubernetes-Dienstkontos in Google Cloudbereit.

Annotieren Sie das Kubernetes-Dienstkonto.

kubectl annotate serviceaccount gpu-k8s-sa \
    --namespace gke-ai-namespace \
    iam.gke.io/gcp-service-account=gke-ai-sa@PROJECT_ID.iam.gserviceaccount.com

Online-Inferenzserver bereitstellen

Jedes Online-Inferenz-Framework erwartet das vortrainierte ML-Modell in einem bestimmten Format. Im folgenden Abschnitt wird gezeigt, wie Sie den Inferenzserver je nach dem gewünschten Framework bereitstellen:

Triton

Kopieren Sie in Cloud Shell das vortrainierte ML-Modell in den Cloud Storage-Bucket:
```
gcloud storage cp src/triton-model-repository gs://$GSBUCKET --recursive
```
Stellen Sie das Framework mit einem Deployment bereit. Ein Deployment ist ein Kubernetes-API-Objekt, mit dem Sie mehrere Replikate von Pods ausführen können, die auf die Knoten in einem Cluster verteilt sind:
```
envsubst < src/gke-config/deployment-triton.yaml | kubectl --namespace=gke-ai-namespace apply -f -
```

Prüfen Sie, ob GKE das Framework bereitgestellt hat:

kubectl get deployments --namespace=gke-ai-namespace

Wenn das Framework bereit ist, sieht die Ausgabe in etwa so aus:

NAME                 READY   UP-TO-DATE   AVAILABLE   AGE
triton-deployment    1/1     1            1           5m29s

Dienste für den Zugriff auf die Bereitstellung bereitstellen:

kubectl apply --namespace=gke-ai-namespace -f src/gke-config/service-triton.yaml

Prüfen Sie, ob die externe IP-Adresse zugewiesen ist:

kubectl get services --namespace=gke-ai-namespace

Die Ausgabe sieht in etwa so aus:

NAME            TYPE           CLUSTER-IP       EXTERNAL-IP     PORT(S)                                        AGE
kubernetes      ClusterIP      34.118.224.1     <none>          443/TCP                                        60m
triton-server   LoadBalancer   34.118.227.176   35.239.54.228   8000:30866/TCP,8001:31035/TCP,8002:30516/TCP   5m14s

Notieren Sie sich die IP-Adresse für triton-server in der Spalte EXTERNAL-IP.

Überprüfen Sie, ob der Dienst und die Bereitstellung ordnungsgemäß funktionieren:

curl -v EXTERNAL_IP:8000/v2/health/ready

Die Ausgabe sieht in etwa so aus:

...
< HTTP/1.1 200 OK
< Content-Length: 0
< Content-Type: text/plain
...

TF-Bereitstellung

Kopieren Sie in Cloud Shell das vortrainierte ML-Modell in den Cloud Storage-Bucket:
```
gcloud storage cp src/tfserve-model-repository gs://$GSBUCKET --recursive
```
Stellen Sie das Framework mit einem Deployment bereit. Ein Deployment ist ein Kubernetes-API-Objekt, mit dem Sie mehrere Replikate von Pods ausführen können, die auf die Knoten in einem Cluster verteilt sind:
```
envsubst < src/gke-config/deployment-tfserve.yaml | kubectl --namespace=gke-ai-namespace apply -f -
```

Prüfen Sie, ob GKE das Framework bereitgestellt hat:

kubectl get deployments --namespace=gke-ai-namespace

Wenn das Framework bereit ist, sieht die Ausgabe in etwa so aus:

NAME                 READY   UP-TO-DATE   AVAILABLE   AGE
tfserve-deployment   1/1     1            1           5m29s

Dienste für den Zugriff auf die Bereitstellung bereitstellen:

kubectl apply --namespace=gke-ai-namespace -f src/gke-config/service-tfserve.yaml

Prüfen Sie, ob die externe IP-Adresse zugewiesen ist:

kubectl get services --namespace=gke-ai-namespace

Die Ausgabe sieht in etwa so aus:

NAME            TYPE           CLUSTER-IP       EXTERNAL-IP     PORT(S)                                        AGE
kubernetes      ClusterIP      34.118.224.1     <none>          443/TCP                                        60m
tfserve-server  LoadBalancer   34.118.227.176   35.239.54.228   8500:30003/TCP,8000:32194/TCP                  5m14s

Notieren Sie sich die IP-Adresse für tfserve-server in der Spalte EXTERNAL-IP.

Prüfen Sie, ob der Dienst und die Bereitstellung ordnungsgemäß funktionieren:

curl -v EXTERNAL_IP:8000/v1/models/mnist

Ersetzen Sie dabei EXTERNAL_IP durch Ihre externe IP-Adresse.

Die Ausgabe sieht in etwa so aus:

...
< HTTP/1.1 200 OK
< Content-Type: application/json
< Date: Thu, 12 Oct 2023 19:01:19 GMT
< Content-Length: 154
<
{
  "model_version_status": [
        {
        "version": "1",
        "state": "AVAILABLE",
        "status": {
          "error_code": "OK",
          "error_message": ""
        }
      }
    ]
}

Modell bereitstellen

Triton

Erstellen Sie eine virtuelle Python-Umgebung in Cloud Shell.

python -m venv ./mnist_client
source ./mnist_client/bin/activate

Installieren Sie die erforderlichen Python-Pakete:

pip install -r src/client/triton-requirements.txt

Testen Sie den Triton-Inferenzserver durch Laden eines Bildes:
```
cd src/client
python triton_mnist_client.py -i EXTERNAL_IP -m mnist -p ./images/TEST_IMAGE.png
```
Ersetzen Sie Folgendes:
- EXTERNAL_IP: ist Ihre externe IP-Adresse.
- TEST_IMAGE: Der Name der Datei, die dem zu testenden Image entspricht. Sie können die in src/client/images gespeicherten Images verwenden.
Je nach verwendetem Image sieht die Ausgabe in etwa so aus:
```
Calling Triton HTTP Service      ->      Prediction result: 7
```

TF-Bereitstellung

Erstellen Sie eine virtuelle Python-Umgebung in Cloud Shell.

python -m venv ./mnist_client
source ./mnist_client/bin/activate

Installieren Sie die erforderlichen Python-Pakete:

pip install -r src/client/tfserve-requirements.txt

TensorFlow Serving mit einigen Bildern testen

cd src/client
python tfserve_mnist_client.py -i EXTERNAL_IP -m mnist -p ./images/TEST_IMAGE.png

Ersetzen Sie Folgendes:

EXTERNAL_IP: ist Ihre externe IP-Adresse.
TEST_IMAGE: Ein Wert zwischen 0 und 9. Sie können die in src/client/images gespeicherten Images verwenden.

Je nachdem, welches Image Sie verwenden, erhalten Sie eine Ausgabe ähnlich der folgenden:

  Calling TensorFlow Serve HTTP Service    ->      Prediction result: 5

Modellleistung beobachten

Triton

Um die Modellleistung zu beobachten, können Sie die Triton-Dashboard-Integration in Cloud Monitoring verwenden. In diesem Dashboard können Sie wichtige Leistungsmesswerte wie den Token-Durchsatz, die Anfrage-Latenz und die Fehlerraten einsehen.

Damit Sie das Triton-Dashboard verwenden können, müssen Sie Google Cloud Managed Service for Prometheus in Ihrem GKE-Cluster aktivieren. Damit werden die Messwerte von Triton erfasst. Triton stellt Messwerte standardmäßig im Prometheus-Format bereit. Sie müssen keinen zusätzlichen Exporter installieren.

Anschließend können Sie die Messwerte über das Triton-Dashboard aufrufen. Informationen zum Erheben von Messwerten aus Ihrem Modell mit Google Cloud Managed Service for Prometheus finden Sie in der Cloud Monitoring-Dokumentation unter Triton.

TF-Bereitstellung

Um die Modellleistung zu beobachten, können Sie die TF Serving-Dashboard-Integration in Cloud Monitoring verwenden. In diesem Dashboard können Sie wichtige Leistungsmesswerte wie den Token-Durchsatz, die Anfrage-Latenz und die Fehlerraten einsehen.

Damit Sie das TF Serving-Dashboard verwenden können, müssen Sie Google Cloud Managed Service for Prometheus in Ihrem GKE-Cluster aktivieren. Damit werden die Messwerte von TF Serving erfasst.

Anschließend können Sie die Messwerte über das TF Serving-Dashboard aufrufen. Informationen zum Erheben von Messwerten aus Ihrem Modell mit Google Cloud Managed Service for Prometheus finden Sie in der Cloud Monitoring-Dokumentation unter TF Serving.

Bereinigen

Führen Sie einen der folgenden Schritte aus, damit Ihrem Google Cloud Konto die in dieser Anleitung erstellten Ressourcen nicht in Rechnung gestellt werden:

GKE-Cluster beibehalten:Kubernetes-Ressourcen im Cluster und die Google Cloud Ressourcen löschen
Google Cloud -Projekt beibehalten:GKE-Cluster und die Google Cloud -Ressourcen löschen
Projekt löschen

Kubernetes-Ressourcen im Cluster und die Google Cloud -Ressourcen löschen

Löschen Sie den Kubernetes-Namespace und die bereitgestellten Arbeitslasten:

Triton

kubectl -n gke-ai-namespace delete -f src/gke-config/service-triton.yaml
kubectl -n gke-ai-namespace delete -f src/gke-config/deployment-triton.yaml
kubectl delete namespace gke-ai-namespace

TF-Bereitstellung

kubectl -n gke-ai-namespace delete -f src/gke-config/service-tfserve.yaml
kubectl -n gke-ai-namespace delete -f src/gke-config/deployment-tfserve.yaml
kubectl delete namespace gke-ai-namespace

Löschen Sie den Cloud Storage-Bucket:
1. Rufen Sie die Seite Buckets auf.
  
  Buckets aufrufen
2. Aktivieren Sie das Kästchen für PROJECT_ID-gke-bucket.
3. Klicken Sie auf Löschen.
4. Geben Sie DELETE ein und klicken Sie auf Löschen, um den Löschvorgang zu bestätigen.
Löschen Sie das Dienstkonto Google Cloud :
1. Rufen Sie die Seite Dienstkonten auf:
  
  Zur Seite „Dienstkonten“
2. Wählen Sie Ihr Projekt aus.
3. Aktivieren Sie das Kästchen für gke-gpu-sa@PROJECT_ID.iam.gserviceaccount.com.
4. Klicken Sie auf Löschen.
5. Klicken Sie zur Bestätigung noch einmal auf Löschen.

GKE-Cluster und Google Cloud -Ressourcen löschen

Löschen Sie den GKE-Cluster:
1. Rufen Sie die Seite Cluster auf:
  
  Zu den Clustern
2. Aktivieren Sie das Kästchen für online-serving-cluster.
3. Klicken Sie auf Löschen.
4. Geben Sie online-serving-cluster ein und klicken Sie auf Löschen, um den Löschvorgang zu bestätigen.
Löschen Sie den Cloud Storage-Bucket:
1. Rufen Sie die Seite Buckets auf.
  
  Buckets aufrufen
2. Aktivieren Sie das Kästchen für PROJECT_ID-gke-bucket.
3. Klicken Sie auf Löschen.
4. Geben Sie DELETE ein und klicken Sie auf Löschen, um den Löschvorgang zu bestätigen.
Löschen Sie das Dienstkonto Google Cloud :
1. Rufen Sie die Seite Dienstkonten auf:
  
  Zur Seite „Dienstkonten“
2. Wählen Sie Ihr Projekt aus.
3. Aktivieren Sie das Kästchen für gke-gpu-sa@PROJECT_ID.iam.gserviceaccount.com.
4. Klicken Sie auf Löschen.
5. Klicken Sie zur Bestätigung noch einmal auf Löschen.

Projekt löschen

Achtung: Das Löschen von Projekten hat folgende Auswirkungen:

Alle Inhalte des Projekts werden gelöscht. Wenn Sie für die Aufgaben in diesem Dokument ein bereits bestehendes Projekt verwendet haben und dieses löschen, werden auch alle anderen im Rahmen des Projekts erstellten Daten gelöscht.
Benutzerdefinierte Projekt-IDs gehen verloren. Beim Erstellen dieses Projekts haben Sie möglicherweise eine benutzerdefinierte Projekt-ID erstellt, die Sie weiterhin verwenden möchten. Damit die URLs, die die Projekt-ID nutzen, zum Beispiel eine appspot.com-URL, erhalten bleiben, sollten Sie ausgewählte Ressourcen innerhalb des Projekts löschen, anstatt das gesamte Projekt.

Wenn Sie weitere Architekturen, Tutorials oder Kurzanleitungen nutzen möchten, können Sie vorhandene Projekte wiederverwenden und somit vermeiden, dass Projektkontingente überschritten werden.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

Modell mit einer einzelnen GPU in GKE bereitstellen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Ziele

Kosten

Vorbereitung

Projekt einrichten

Standardeinstellungen für die Google Cloud CLI festlegen

GKE-Cluster erstellen

Autopilot

Standard

Cloud Storage-Bucket erstellen

Cluster für den Zugriff auf den Bucket mithilfe der Identitätsföderation von Arbeitslasten für GKE konfigurieren

Google Cloud Dienstkonto erstellen

Kubernetes-Dienstkonto in Ihrem Cluster erstellen

Kubernetes-Dienstkonto an das Google Cloud -Dienstkonto binden

Online-Inferenzserver bereitstellen

Triton

TF-Bereitstellung

Modell bereitstellen

Triton

TF-Bereitstellung

Modellleistung beobachten

Triton

TF-Bereitstellung

Bereinigen

Kubernetes-Ressourcen im Cluster und die Google Cloud -Ressourcen löschen

Triton

TF-Bereitstellung

GKE-Cluster und Google Cloud -Ressourcen löschen

Projekt löschen

Nächste Schritte

Modell mit einer einzelnen GPU in GKE bereitstellen