Diese Seite wurde von der Cloud Translation API übersetzt.

LLM mithilfe von TPU Trillium in GKE mit vLLM bereitstellen

Standard Autopilot

In dieser Anleitung wird beschrieben, wie Sie Large Language Models (LLMs) mit Tensor Processing Units (TPUs) in Google Kubernetes Engine (GKE) mit dem vLLM-Serving-Framework bereitstellen. In diesem Tutorial stellen Sie Llama 3.1 70b bereit, verwenden TPU Trillium und richten horizontales Pod-Autoscaling mit vLLM-Servermesswerten ein.

Dieses Dokument ist ein guter Ausgangspunkt, wenn Sie bei der Bereitstellung und Zugänglichmachung Ihrer KI/ML-Arbeitslasten die detaillierte Kontrolle, Skalierbarkeit, Robustheit, Übertragbarkeit und Kosteneffizienz von verwaltetem Kubernetes benötigen.

Hintergrund

Wenn Sie TPU Trillium in GKE verwenden, können Sie eine robuste, produktionsbereite Bereitstellungslösung mit allen Vorteilen von verwaltetem Kubernetes implementieren, darunter effiziente Skalierbarkeit und höhere Verfügbarkeit. In diesem Abschnitt werden die in diesem Leitfaden verwendeten Schlüsseltechnologien beschrieben.

TPU Trillium

TPUs sind von Google speziell entwickelte anwendungsspezifische integrierte Schaltkreise (ASICs). TPUs werden verwendet, um das maschinelle Lernen und die KI-Modelle zu beschleunigen, die mit Frameworks wie TensorFlow, PyTorch und JAX erstellt wurden. In dieser Anleitung wird TPU Trillium verwendet, die sechste Generation der TPUs von Google.

Bevor Sie TPUs in GKE verwenden, sollten Sie den folgenden Lernpfad durcharbeiten:

vLLM

vLLM ist ein hoch optimiertes Open-Source-Framework für die Bereitstellung von LLMs. vLLM kann den Bereitstellungsdurchsatz auf TPUs über Funktionen wie die folgenden beschleunigen:

Optimierte Transformer-Implementierung mit PagedAttention.
Kontinuierliche Batchverarbeitung zur Verbesserung des allgemeinen Bereitstellungsdurchsatzes.
Tensor-Parallelität und verteilte Bereitstellung auf mehreren TPUs.

Weitere Informationen finden Sie in der vLLM-Dokumentation.

Hinweis :In diesem Tutorial wird die Bereitstellung von vLLM in einer Konfiguration mit einem einzelnen Host behandelt. Dies ist ideal für Modelle, die über einen einzelnen TPU-Slice bereitgestellt werden können, z. B. Llama 3.1 70b auf einem ct6e-standard-8t-Maschinentyp. Wichtig: Konfigurationen mit mehreren Hosts werden nicht unterstützt, wenn Sie vLLM mit TPUs in GKE verwenden. Die fehlende Unterstützung für mehrere Hosts schränkt die Verwendung von vLLM für die Bereitstellung extrem großer Modelle (z. B. mit mehr als 400 Milliarden Parametern) ein, für die der aggregierte Arbeitsspeicher und die Rechenleistung mehrerer Hosts erforderlich sind. Für Produktionssysteme oder Modelle, die eine Einrichtung mit mehreren Hosts erfordern, ist JetStream, die Engine von Google für TPU-Inferenz, die empfohlene und leistungsoptimierte Lösung. Informationen zu den ersten Schritten mit einer Bereitstellung mit mehreren Hosts finden Sie unter JetStream MaxText-Inferenz auf v6e-TPU.

Cloud Storage FUSE

Cloud Storage FUSE bietet Zugriff von Ihrem GKE-Cluster auf Cloud Storage für Modellgewichte, die sich in Object Storage-Buckets befinden. In dieser Anleitung ist der erstellte Cloud Storage-Bucket anfangs leer. Wenn vLLM gestartet wird, lädt GKE das Modell von Hugging Face herunter und speichert die Gewichte im Cloud Storage-Bucket. Beim Neustart des Pods oder beim Hochskalieren der Bereitstellung werden bei nachfolgenden Modellladevorgängen zwischengespeicherte Daten aus dem Cloud Storage-Bucket heruntergeladen. Dabei werden parallele Downloads für eine optimale Leistung genutzt.

Weitere Informationen finden Sie in der Dokumentation zum CSI-Treiber für Cloud Storage FUSE.

Ziele

Diese Anleitung richtet sich an MLOps- oder DevOps-Entwickler oder Plattformadministratoren, die GKE-Orchestrierungsfunktionen zum Bereitstellen von LLMs verwenden möchten.

Diese Anleitung umfasst die folgenden Schritte:

Erstellen Sie einen GKE-Cluster mit der empfohlenen TPU Trillium-Topologie anhand der Modelleigenschaften.
Stellen Sie das vLLM-Framework in einem Knotenpool in Ihrem Cluster bereit.
Verwenden Sie das vLLM-Framework, um Llama 3.1 70b über einen Load-Balancer bereitzustellen.
Horizontales Pod-Autoscaling mit vLLM-Servermesswerten einrichten
Modell bereitstellen

Hinweise

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Make sure that you have the following role or roles on the project: roles/container.admin, roles/iam.serviceAccountAdmin, roles/iam.securityAdmin, roles/artifactregistry.writer, roles/container.clusterAdmin
Check for the roles
1. In the Google Cloud console, go to the IAM page.
  Go to IAM
2. Select the project.
3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
1. In the Google Cloud console, go to the IAM page.
  IAM aufrufen
2. Wählen Sie das Projekt aus.
3. Klicken Sie auf Zugriffsrechte erteilen.
4. Geben Sie im Feld Neue Hauptkonten Ihre Nutzer-ID ein. Das ist in der Regel die E‑Mail-Adresse eines Google-Kontos.
5. Wählen Sie in der Liste Rolle auswählen eine Rolle aus.
6. Klicken Sie auf Weitere Rolle hinzufügen, wenn Sie weitere Rollen zuweisen möchten.
7. Klicken Sie auf Speichern.

LLM mithilfe von TPU Trillium in GKE mit vLLM bereitstellen

Hintergrund

TPU Trillium

vLLM

Cloud Storage FUSE

Ziele

Hinweise

Check for the roles

Grant the roles

Umgebung vorbereiten

Zugriff auf das Modell erhalten

Zugriffstoken erstellen

Cloud Shell starten

GKE-Cluster erstellen

Autopilot

Standard

kubectl für die Kommunikation mit Ihrem Cluster konfigurieren

Kubernetes-Secret für Hugging Face-Anmeldedaten erstellen

Cloud Storage-Bucket erstellen

Kubernetes-Dienstkonto für den Zugriff auf den Bucket einrichten

vLLM-Modellserver bereitstellen

Modell bereitstellen

Benutzerdefiniertes Autoscaling einrichten

Last auf dem vLLM-Endpunkt erzeugen

Prüfen, ob Google Cloud Managed Service for Prometheus die Messwerte aufnimmt

Konfiguration für horizontales Pod-Autoscaling bereitstellen

Bereinigen

Bereitgestellte Ressourcen löschen

Nächste Schritte

LLM mithilfe von TPU Trillium in GKE mit vLLM bereitstellen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Hintergrund

TPU Trillium

vLLM

Cloud Storage FUSE

Ziele

Hinweise

Check for the roles

Grant the roles

Umgebung vorbereiten

Zugriff auf das Modell erhalten

Zugriffstoken erstellen

Cloud Shell starten

GKE-Cluster erstellen

Autopilot

Standard

kubectl für die Kommunikation mit Ihrem Cluster konfigurieren

Kubernetes-Secret für Hugging Face-Anmeldedaten erstellen

Cloud Storage-Bucket erstellen

Kubernetes-Dienstkonto für den Zugriff auf den Bucket einrichten

vLLM-Modellserver bereitstellen

Modell bereitstellen

Benutzerdefiniertes Autoscaling einrichten

Last auf dem vLLM-Endpunkt erzeugen

Prüfen, ob Google Cloud Managed Service for Prometheus die Messwerte aufnimmt

Konfiguration für horizontales Pod-Autoscaling bereitstellen

Bereinigen

Bereitgestellte Ressourcen löschen

Nächste Schritte

LLM mithilfe von TPU Trillium in GKE mit vLLM bereitstellen