Diese Seite wurde von der Cloud Translation API übersetzt.

LLM mithilfe von TPUs in GKE mit JetStream und PyTorch bereitstellen

Autopilot Standard

In diesem Leitfaden erfahren Sie, wie Sie ein Large Language Model (LLM) mit Tensor Processing Units (TPUs) in Google Kubernetes Engine (GKE) mit JetStream über PyTorch bereitstellen. In dieser Anleitung laden Sie Modellgewichte in Cloud Storage herunter und stellen sie auf einem GKE-Autopilot oder -Standard mit einem Container, der JetStream ausführt, bereit.

Wenn Sie beim Bereitstellen Ihres Modells in JetStream die Skalierbarkeit, Robustheit und Kosteneffizienz der Kubernetes-Features benötigen, ist dieser Leitfaden ein guter Ausgangspunkt.

Dieser Leitfaden richtet sich an Kunden von generativer KI, die PyTorch verwenden, neue oder bestehende Nutzer von GKE, ML-Entwickler, MLOps-Entwickler (DevOps) oder Plattformadministratoren, die daran interessiert sind, Funktionen zur Kubernetes-Containerorchestrierung für die Bereitstellung von LLMs zu nutzen.

Hintergrund

Wenn Sie ein LLM mithilfe von TPUs in GKE mit JetStream bereitstellen, können Sie eine robuste, produktionsreife Bereitstellungslösung mit allen Vorteilen von verwaltetem Kubernetes erstellen, einschließlich Kosteneffizienz, Skalierbarkeit und höhere Verfügbarkeit. In diesem Abschnitt werden die in dieser Anleitung verwendeten Schlüsseltechnologien beschrieben.

TPUs

TPUs sind von Google speziell entwickelte anwendungsspezifische integrierte Schaltungen (Application-Specific Integrated Circuits, ASICs), die verwendet werden, um das maschinelle Lernen und die KI-Modelle zu beschleunigen, die mit Frameworks wie folgenden erstellt wurden:TensorFlow, PyTorch und JAX.

Bevor Sie TPUs in GKE verwenden, sollten Sie den folgenden Lernpfad durcharbeiten:

Lernen Sie mehr über die aktuelle Verfügbarkeit von TPU-Versionen unter Cloud TPU-Systemarchitektur.
TPUs in GKE

In dieser Anleitung wird das Bereitstellen verschiedener LLM-Modelle beschrieben. GKE stellt das Modell auf TPUv5e-Knoten mit einem einzelnen Host bereit. Dabei werden TPU-Topologien basierend auf den Modellanforderungen für die Bereitstellung von Eingabeaufforderungen mit niedriger Latenz konfiguriert.

JetStream

JetStream ist ein von Google entwickeltes Open-Source-Framework zur Bereitstellung von Inferenzen. JetStream ermöglicht leistungsstarke, durchsatzintensive und speicheroptimierte Inferenz auf TPUs und GPUs. JetStream bietet erweiterte Leistungsoptimierungen, einschließlich Techniken zur kontinuierlichen Batch-, KV-Cache- und Quantisierung, um die LLM-Bereitstellung zu erleichtern. JetStream ermöglicht die PyTorch/XLA- und JAX-TPU-Bereitstellung, um eine optimale Leistung zu erzielen.

Kontinuierliche Batchverarbeitung

Kontinuierliches Batching ist eine Technik, bei der eingehende Inferenzanfragen dynamisch in Batches gruppiert werden, um die Latenz zu verringern und den Durchsatz zu erhöhen.

KV-Cache-Quantisierung

Bei der KV-Cache-Quantisierung wird der im Attention-Mechanismus verwendete Schlüssel-Wert-Cache komprimiert, wodurch der Arbeitsspeicherbedarf sinkt.

Int8-Gewichtsquantisierung

Durch die Int8-Gewichtsquantisierung wird die Genauigkeit der Modellgewichte von 32-Bit-Gleitkommazahlen auf 8-Bit-Ganzzahlen reduziert, was zu schnelleren Berechnungen und einer geringeren Speichernutzung führt.

Weitere Informationen zu diesen Optimierungen finden Sie in den Projekt-Repositories JetStream PyTorch und JetStream MaxText.

PyTorch

PyTorch ist ein Open-Source-Framework für maschinelles Lernen, das von Meta entwickelt wurde und jetzt Teil der Linux Foundation ist. PyTorch bietet High-Level-Funktionen wie Tensor-Berechnungen und neuronale Deep-Learning-Netzwerke.

Ziele

Bereiten Sie einen GKE Autopilot- oder Standardcluster mit der empfohlenen TPU-Topologie anhand der Modelleigenschaften vor.
JetStream-Komponenten in GKE bereitstellen
Modell abrufen und veröffentlichen
Stellen Sie das veröffentlichte Modell bereit und interagieren Sie damit.

Architektur

In diesem Abschnitt wird die in dieser Anleitung verwendete GKE-Architektur beschrieben. Die Architektur umfasst einen GKE Autopilot- oder Standardcluster, der TPUs bereitstellt und JetStream-Komponenten zum Bereitstellen und Bereitstellen der Modelle hostet.

Das folgende Diagramm zeigt die Komponenten dieser Architektur:

Architektur des GKE-Cluster mit TPU-Knotenpools mit einzelnen Hosts, die die JetStream-PyTorch- und JetStream-HTTP-Komponenten enthalten.

Diese Architektur umfasst die folgenden Komponenten:

Regionaler GKE-Autopilot- oder Standard-Cluster.
Zwei TPU-Slice-Knotenpools mit einem Host, die die JetStream-Bereitstellung hosten.
Die Dienstkomponente verteilt eingehenden Traffic auf alle JetStream HTTP-Replikate.
JetStream HTTP ist ein HTTP-Server, der Anfragen als Wrapper für das erforderliche Format von JetStream akzeptiert und an den GRPC-Client von JetStream sendet.
JetStream-PyTorch ist ein JetStream-Server, der Inferenzen mit kontinuierlicher Batchverarbeitung ausführt.

Hinweise

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Make sure that you have the following role or roles on the project: roles/container.admin, roles/iam.serviceAccountAdmin, roles/resourcemanager.projectIamAdmin
Check for the roles
1. In the Google Cloud console, go to the IAM page.
  Go to IAM
2. Select the project.
3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
1. In the Google Cloud console, go to the IAM page.
  IAM aufrufen
2. Wählen Sie das Projekt aus.
3. Klicken Sie auf Zugriffsrechte erteilen.
4. Geben Sie im Feld Neue Hauptkonten Ihre Nutzer-ID ein. Das ist in der Regel die E‑Mail-Adresse eines Google-Kontos.
5. Wählen Sie in der Liste Rolle auswählen eine Rolle aus.
6. Klicken Sie auf Weitere Rolle hinzufügen, wenn Sie weitere Rollen zuweisen möchten.
7. Klicken Sie auf Speichern.

LLM mithilfe von TPUs in GKE mit JetStream und PyTorch bereitstellen

Hintergrund

TPUs

JetStream

PyTorch

Ziele

Architektur

Hinweise

Check for the roles

Grant the roles

Zugriff auf das Modell erhalten

Gemma 7B-it

Llama 3 8B

Umgebung vorbereiten

Google Cloud -Ressourcen erstellen und konfigurieren

GKE-Cluster erstellen

Autopilot

Standard

Hugging Face-Befehlszeilentoken in Cloud Shell generieren

Kubernetes-Secret für Hugging Face-Anmeldedaten erstellen

Arbeitslastzugriff mit Identitätsföderation von Arbeitslasten für GKE konfigurieren

JetStream bereitstellen

Gemma 7B-it

Llama 3 8B

Modell bereitstellen

Portweiterleitung einrichten

Mithilfe von curl mit dem Modell interagieren

Modellleistung beobachten

Probleme beheben

Bereinigen

Bereitgestellte Ressourcen löschen

Nächste Schritte

LLM mithilfe von TPUs in GKE mit JetStream und PyTorch bereitstellen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Hintergrund

TPUs

JetStream

PyTorch

Ziele

Architektur

Hinweise

Check for the roles

Grant the roles

Zugriff auf das Modell erhalten

Gemma 7B-it

Llama 3 8B

Umgebung vorbereiten

Google Cloud -Ressourcen erstellen und konfigurieren

GKE-Cluster erstellen

Autopilot

Standard

Hugging Face-Befehlszeilentoken in Cloud Shell generieren

Kubernetes-Secret für Hugging Face-Anmeldedaten erstellen

Arbeitslastzugriff mit Identitätsföderation von Arbeitslasten für GKE konfigurieren

JetStream bereitstellen

Gemma 7B-it

Llama 3 8B

Modell bereitstellen

Portweiterleitung einrichten

Mithilfe von curl mit dem Modell interagieren

Modellleistung beobachten

Probleme beheben

Bereinigen

Bereitgestellte Ressourcen löschen

Nächste Schritte

LLM mithilfe von TPUs in GKE mit JetStream und PyTorch bereitstellen