Open-Source-Modelle mithilfe von TPUs in GKE mit Optimum TPU bereitstellen

Standard

In dieser Anleitung wird beschrieben, wie Sie Open Source LLM-Modelle (Large Language Model) Modelle mit Tensor Processing Units (TPUs) in der Google Kubernetes Engine (GKE) mit dem Optimum TPU Bereitstellungs-Framework von Hugging Face bereitstellen. In dieser Anleitung laden Sie Open Source-Modelle von Hugging Face herunter und stellen sie in einem GKE StandardCluster bereit. Dazu verwenden Sie einen Container, in dem Optimum TPU ausgeführt wird.

Dieser Leitfaden ist ein guter Ausgangspunkt, wenn Sie bei der Bereitstellung und Zugänglichmachung Ihrer KI/ML-Arbeitslasten die detaillierte Kontrolle, Skalierbarkeit, Robustheit, Übertragbarkeit und Kosteneffizienz von verwaltetem Kubernetes benötigen.

Diese Anleitung richtet sich an Kunden von generativer KI im Hugging Face-Ökosystem, neue oder bestehende Nutzer von GKE, ML-Entwickler, MLOps-Entwickler (DevOps) oder Plattformadministratoren, die daran interessiert sind, Kubernetes-Container-Orchestrierungsfunktionen zu nutzen, um LLMs bereitzustellen.

Google Cloud Produkte wie GKE, Vertex AI und Compute Engine unterstützen verschiedene Bereitstellungsbibliotheken wie JetStream, vLLM und andere Partnerangebote. Mit JetStream können Sie beispielsweise die neuesten Optimierungen aus dem Projekt nutzen. Wenn Sie Optionen von Hugging Face bevorzugen, können Sie Optimum TPU verwenden.

Optimum TPU unterstützt die folgenden Funktionen:

Kontinuierliche Batchverarbeitung
Token streaming
Greedysuche und multinomiale Stichprobenerhebung mit Transformern

Ziele

Bereiten Sie einen GKE-Standardcluster mit der empfohlenen TPU-Topologie anhand der Modelleigenschaften vor.
Stellen Sie Optimum TPU in GKE bereit.
Verwenden Sie Optimum TPU, um die unterstützten Modelle über „curl“ bereitzustellen.

Hinweis

Melden Sie sich in Ihrem Google Cloud Konto an. Wenn Sie mit Google Cloudnoch nicht vertraut sind, erstellen Sie ein Konto, um die Leistung unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Erstellen Sie ein Hugging Face-Konto, falls Sie noch keines haben.
Prüfen Sie, ob Ihr Projekt ein ausreichendes Kontingent hat für Cloud TPU in GKE.

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für das Projekt zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Konfigurieren von Clustern und Arbeitslasten benötigen:

Service Account Admin (roles/iam.serviceAccountAdmin)
GKE-Cluster verwalten: Kubernetes Engine-Administrator (roles/container.admin)
Images erstellen und in die Artifact Registry übertragen: Artifact Registry-Administrator (roles/artifactregistry.admin)

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Umgebung vorbereiten

In dieser Anleitung verwenden Sie Cloud Shell zum Verwalten von Ressourcen, die in gehostet werden Google Cloud. Die Software, die Sie für diese Anleitung benötigen, ist in Cloud Shell vorinstalliert, einschließlich kubectl und gcloud CLI.

So richten Sie Ihre Umgebung mit Cloud Shell ein:

Aktivieren Sie Cloud Shell in der Google Cloud Console.

Cloud Shell aktivieren

Unten in der Google Cloud Console wird eine Cloud Shell Sitzung gestartet und eine Eingabeaufforderung angezeigt. Cloud Shell ist eine Shell-Umgebung in der das Google Cloud CLI bereits installiert ist und Werte für Ihr aktuelles Projekt bereits festgelegt sind. Das Initialisieren der Sitzung kann einige Sekunden dauern.
Legen Sie die Standardumgebungsvariablen fest:
```
gcloud config set project PROJECT_ID
export PROJECT_ID=$(gcloud config get project)
export CLUSTER_NAME=CLUSTER_NAME
export REGION=REGION_NAME
export ZONE=ZONE
export HF_TOKEN=HF_TOKEN
```
Ersetzen Sie die folgenden Werte:
- PROJECT_ID: Ihre Google Cloud Projekt-ID.
- CLUSTER_NAME: der Name Ihres GKE-Cluster.
- REGION_NAME: Die Region, in der sich der GKE-Cluster, der Cloud Storage-Bucket und die TPU-Knoten befinden. Die Region enthält Zonen, in denen TPU v5e-Maschinentypen verfügbar sind, z. B. us-west1, us-west4, us-central1, us-east1, us-east5 oder europe-west4.
- (Nur Standardcluster) ZONE: Die Zone, in der die TPU-Ressourcen verfügbar sind (z. B. us-west4-a). Bei Autopilot-Clustern müssen Sie nicht die Zone angeben, sondern nur die Region.
- HF_TOKEN: Ihr HuggingFace-Token.

Klonen Sie das Optimum TPU-Repository:

git clone https://github.com/huggingface/optimum-tpu.git

Zugriff auf das Modell erhalten

Sie können die Modelle Gemma 2B oder Llama3 8B verwenden. In dieser Anleitung konzentrieren wir uns auf diese beiden Modelle, aber Optimum TPU unterstützt noch weitere Modelle.

Gemma 2B

Wenn Sie Zugriff auf die Gemma-Modelle für die Bereitstellung in GKE erhalten möchten, müssen Sie zuerst die Lizenzeinwilligungsvereinbarung unterzeichnen und dann ein Hugging-Face-Zugriffstoken generieren.

Sie müssen die Einwilligungsvereinbarung unterzeichnen, um Gemma verwenden zu können. Gehen Sie dazu so vor:

Rufen Sie die Seite zur Modelleinwilligung auf.
Bestätigen Sie die Einwilligung mit Ihrem Hugging Face-Konto.
Akzeptieren Sie die Modellbedingungen.

Zugriffstoken erstellen

Generieren Sie ein neues Hugging Face-Token, falls Sie noch keines haben:

Klicken Sie auf Profil > Einstellungen > Zugriffstokens.
Klicken Sie auf Neues Token.
Geben Sie einen Namen Ihrer Wahl und eine Rolle von mindestens Read an.
Klicken Sie auf Generate Token (Token generieren).
Kopieren Sie das Token in die Zwischenablage.

Llama3 8B

Sie müssen die Einwilligungsvereinbarung unterzeichnen, um Llama3 8B im Hugging Face-Repository verwenden zu können.

Zugriffstoken erstellen

Generieren Sie ein neues Hugging Face-Token, falls Sie noch keines haben:

Klicken Sie auf Profil > Einstellungen > Zugriffstokens.
Wählen Sie Neues Token aus.
Geben Sie einen Namen Ihrer Wahl und eine Rolle von mindestens Read an.
Wählen Sie Token generieren aus.
Kopieren Sie das Token in die Zwischenablage.

GKE-Cluster erstellen

Erstellen Sie einen GKE-Standardcluster mit einem CPU-Knoten:

gcloud container clusters create CLUSTER_NAME \
    --project=PROJECT_ID \
    --num-nodes=1 \
    --location=REGION_NAME

TPU-Knotenpool erstellen

Erstellen Sie einen v5e-TPU-Knotenpool mit einem Knoten und acht Chips:

gcloud container node-pools create tpunodepool \
    --location=REGION_NAME \
    --num-nodes=1 \
    --machine-type=ct5lp-hightpu-8t \
    --node-locations=ZONE \
    --cluster=CLUSTER_NAME

Wenn TPU-Ressourcen verfügbar sind, stellt GKE den Knotenpool bereit. Wenn TPU-Ressourcen vorübergehend nicht verfügbar sind, wird in der Ausgabe die Fehlermeldung GCE_STOCKOUT angezeigt. Informationen zur Fehlerbehebung bei Fehlern bei der Ressourcenverfügbarkeit finden Sie unter Nicht genügend TPU-Ressourcen, um die TPU-Anfrage zu erfüllen.

Container erstellen

Führen Sie den make-Befehl aus, um das Image zu erstellen:

cd optimum-tpu && make tpu-tgi

Übertragen Sie das Image per Push in Artifact Registry:

gcloud artifacts repositories create optimum-tpu --repository-format=docker --location=REGION_NAME && \
gcloud auth configure-docker REGION_NAME-docker.pkg.dev && \
docker image tag huggingface/optimum-tpu REGION_NAME-docker.pkg.dev/PROJECT_ID/optimum-tpu/tgi-tpu:latest && \
docker push REGION_NAME-docker.pkg.dev/PROJECT_ID/optimum-tpu/tgi-tpu:latest

Kubernetes-Secret für Hugging Face-Anmeldedaten erstellen

Erstellen Sie ein Kubernetes-Secret, das das Hugging Face-Token enthält:

kubectl create secret generic hf-secret \
  --from-literal=hf_api_token=${HF_TOKEN} \
  --dry-run=client -o yaml | kubectl apply -f -

Optimum TPU bereitstellen

In dieser Anleitung wird ein Kubernetes-Deployment verwendet, um Optimum TPU bereitzustellen. Ein Deployment ist ein Kubernetes-API-Objekt, mit dem Sie mehrere Replikate von Pods ausführen können, die auf die Knoten in einem Cluster verteilt sind.

Gemma 2B

Speichern Sie das folgende Deployment-Manifest als optimum-tpu-gemma-2b-2x4.yaml:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: tgi-tpu
spec:
  replicas: 1
  selector:
    matchLabels:
      app: tgi-tpu
  template:
    metadata:
      labels:
        app: tgi-tpu
    spec:
      nodeSelector:
        cloud.google.com/gke-tpu-topology: 2x4
        cloud.google.com/gke-tpu-accelerator: tpu-v5-lite-podslice
      containers:
      - name: tgi-tpu
        image: REGION_NAME-docker.pkg.dev/PROJECT_ID/optimum-tpu/tgi-tpu:latest
        args:
        - --model-id=google/gemma-2b
        - --max-concurrent-requests=4
        - --max-input-length=8191
        - --max-total-tokens=8192
        - --max-batch-prefill-tokens=32768
        - --max-batch-size=16
        securityContext:
            privileged: true
        env:
          - name: HF_TOKEN
            valueFrom:
              secretKeyRef:
                name: hf-secret
                key: hf_api_token
        ports:
        - containerPort: 80
        resources:
          limits:
            google.com/tpu: 8
        livenessProbe:
          httpGet:
            path: /health
            port: 80
          initialDelaySeconds: 300
          periodSeconds: 120

---
apiVersion: v1
kind: Service
metadata:
  name: service
spec:
  selector:
    app: tgi-tpu
  ports:
    - name: http
      protocol: TCP
      port: 8080
      targetPort: 80

Dieses Manifest beschreibt eine Optimum TPU-Bereitstellung mit einem internen Load-Balancer über TCP-Port 8080.

Wenden Sie das Manifest an:

kubectl apply -f optimum-tpu-gemma-2b-2x4.yaml

Llama3 8B

Speichern Sie das folgende Manifest als optimum-tpu-llama3-8b-2x4.yaml:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: tgi-tpu
spec:
  replicas: 1
  selector:
    matchLabels:
      app: tgi-tpu
  template:
    metadata:
      labels:
        app: tgi-tpu
    spec:
      nodeSelector:
        cloud.google.com/gke-tpu-topology: 2x4
        cloud.google.com/gke-tpu-accelerator: tpu-v5-lite-podslice
      containers:
      - name: tgi-tpu
        image: REGION_NAME-docker.pkg.dev/PROJECT_ID/optimum-tpu/tgi-tpu:latest
        args:
        - --model-id=meta-llama/Meta-Llama-3-8B
        - --max-concurrent-requests=4
        - --max-input-length=8191
        - --max-total-tokens=8192
        - --max-batch-prefill-tokens=32768
        - --max-batch-size=16
        env:
          - name: HF_TOKEN
            valueFrom:
              secretKeyRef:
                name: hf-secret
                key: hf_api_token
        ports:
        - containerPort: 80
        resources:
          limits:
            google.com/tpu: 8
        livenessProbe:
          httpGet:
            path: /health
            port: 80
          initialDelaySeconds: 300
          periodSeconds: 120
---
apiVersion: v1
kind: Service
metadata:
  name: service
spec:
  selector:
    app: tgi-tpu
  ports:
    - name: http
      protocol: TCP
      port: 8080
      targetPort: 80

Dieses Manifest beschreibt eine Optimum TPU-Bereitstellung mit einem internen Load-Balancer über TCP-Port 8080.

Wenden Sie das Manifest an:

kubectl apply -f optimum-tpu-llama3-8b-2x4.yaml

So rufen Sie die Logs des laufenden Deployments auf:

kubectl logs -f -l app=tgi-tpu

Die Ausgabe sollte in etwa so aussehen:

2024-07-09T22:39:34.365472Z  WARN text_generation_router: router/src/main.rs:295: no pipeline tag found for model google/gemma-2b
2024-07-09T22:40:47.851405Z  INFO text_generation_router: router/src/main.rs:314: Warming up model
2024-07-09T22:40:54.559269Z  INFO text_generation_router: router/src/main.rs:351: Setting max batch total tokens to 64
2024-07-09T22:40:54.559291Z  INFO text_generation_router: router/src/main.rs:352: Connected
2024-07-09T22:40:54.559295Z  WARN text_generation_router: router/src/main.rs:366: Invalid hostname, defaulting to 0.0.0.0

Das Modell muss vollständig heruntergeladen sein, bevor Sie mit dem nächsten Abschnitt fortfahren.

Modell bereitstellen

Richten Sie die Portweiterleitung zum Modell ein:

kubectl port-forward svc/service 8080:8080

Mithilfe von curl mit dem Modellserver interagieren

Prüfen Sie die bereitgestellten Modelle:

Verwenden Sie in einer neuen Terminalsitzung curl, um mit Ihrem Modell zu chatten:

curl 127.0.0.1:8080/generate     -X POST     -d '{"inputs":"What is Deep Learning?","parameters":{"max_new_tokens":40}}'     -H 'Content-Type: application/json'

Die Ausgabe sollte in etwa so aussehen:

{"generated_text":"\n\nDeep learning is a subset of machine learning that uses artificial neural networks to learn from data.\n\nArtificial neural networks are inspired by the way the human brain works. They are made up of multiple layers"}

Bereinigen

Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.

Bereitgestellte Ressourcen löschen

Mit dem folgenden Befehl vermeiden Sie, dass Ihrem Google Cloud Konto die in dieser Anleitung erstellten Ressourcen in Rechnung gestellt werden:

gcloud container clusters delete CLUSTER_NAME \
  --location=REGION_NAME

Nächste Schritte

Optimum TPU-Dokumentation lesen.
Erfahren Sie, wie Sie Gemma-Modelle in GKE ausführen und wie Sie optimierte KI-/ML-Arbeitslasten mit GKE-Plattformorchestrierungsfunktionen ausführen.
Mehr über TPUs in GKE erfahren

Open-Source-Modelle mithilfe von TPUs in GKE mit Optimum TPU bereitstellen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Ziele

Hinweis

Erforderliche Rollen

Umgebung vorbereiten

Zugriff auf das Modell erhalten

Gemma 2B

Lizenz-Einwilligungsvereinbarung unterzeichnen

Zugriffstoken erstellen

Llama3 8B

Zugriffstoken erstellen

GKE-Cluster erstellen

TPU-Knotenpool erstellen

Container erstellen

Übertragen Sie das Image per Push in Artifact Registry:

Kubernetes-Secret für Hugging Face-Anmeldedaten erstellen

Optimum TPU bereitstellen

Gemma 2B

Llama3 8B

Modell bereitstellen

Mithilfe von curl mit dem Modellserver interagieren

Bereinigen

Bereitgestellte Ressourcen löschen

Nächste Schritte

Open-Source-Modelle mithilfe von TPUs in GKE mit Optimum TPU bereitstellen