Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Best Practices: Cloud Run-Worker-Pools mit GPUs

Auf dieser Seite finden Sie Best Practices zur Leistungsoptimierung bei der Verwendung eines Cloud Run-Worker-Pools mit KI-Arbeitslasten, z. B. zum Trainieren von Large Language Models (LLMs) mit Ihren bevorzugten Frameworks, zum Feinabstimmen und zum Ausführen von Batch- oder Offline-Inferenz für LLMs. So erstellen Sie einen Cloud Run-Worker-Pool, der rechenintensive Aufgaben oder die Batchverarbeitung in Echtzeit ausführen kann:

Verwenden Sie Modelle, die schnell geladen werden und nur minimal in GPU-fähige Strukturen transformiert werden müssen. Optimieren Sie außerdem das Laden der Modelle.
Verwenden Sie Konfigurationen, die eine maximale, effiziente, gleichzeitige Ausführung ermöglichen, um die Anzahl der GPUs zu reduzieren, die zum Ausführen einer Zielanfrage pro Sekunde erforderlich sind, und gleichzeitig die Kosten niedrig zu halten.

Empfohlene Methoden zum Laden großer ML-Modelle in Cloud Run

Google empfiehlt, ML-Modelle aus Cloud Storage herunterzuladen und über die Google Cloud CLI darauf zuzugreifen. Alternativ können Sie Modelle in Container-Images speichern. Diese Methode eignet sich jedoch am besten für kleinere Modelle mit weniger als 10 GB.

Vor- und Nachteile beim Speichern und Laden von ML-Modellen

Hier finden Sie einen Vergleich der Optionen:

Modellstandort	Bereitstellungszeit	Entwicklungserfahrung	Container-Startzeit	Speicherkosten
Cloud Storage, gleichzeitig heruntergeladen mit dem Google Cloud CLI-Befehl `gcloud storage cp` oder der Cloud Storage API, wie im Codebeispiel für gleichzeitigen Download des Transfer Manager gezeigt.	Schnell. Das Modell wird beim Start des Containers heruntergeladen. Achten Sie darauf, dass der Cloud Run-Instanz genügend RAM zugewiesen ist, um die Modelldateien zu speichern.	Die Einrichtung ist etwas schwieriger, da Sie entweder die Google Cloud CLI auf dem Image installieren oder Ihren Code aktualisieren müssen, um die Cloud Storage API zu verwenden. Weitere Informationen zum Abrufen von Anmeldedaten vom Metadatenserver finden Sie unter Einführung in die Dienstidentität.	Schnell bei Netzwerkoptimierungen. Die Google Cloud CLI lädt die Modelldatei parallel herunter.	Eine Kopie in Cloud Storage.
Cloud Storage über das Cloud Storage FUSE-Volume bereitgestellt	Höheres Tempo. Das Modell wird beim Start des Containers heruntergeladen.	Die Einrichtung ist einfach und es sind keine Änderungen am Docker-Image erforderlich.	Schnell bei Netzwerkoptimierungen.	Eine Kopie in Cloud Storage.
Container-Image	Antworten finden Das Importieren eines Bildes mit einem großen Modell in Cloud Run dauert länger.	Sie müssen jedes Mal ein neues Image erstellen, wenn Sie ein anderes Modell verwenden möchten. Änderungen am Container-Image erfordern eine erneute Bereitstellung, was bei großen Images langsam sein kann.	Abhängig von der Größe des Modells. Bei sehr großen Modellen sollten Sie Cloud Storage verwenden, um eine vorhersehbarere, aber langsamere Leistung zu erzielen.	Möglicherweise mehrere Kopien in Artifact Registry.
Internet	Langsam. Das Modell wird beim Start des Containers heruntergeladen.	In der Regel einfacher (viele Frameworks laden Modelle aus zentralen Repositories herunter).	In der Regel schlecht und unvorhersehbar: Frameworks können während der Initialisierung Modelltransformationen anwenden. Das sollten Sie zur Build-Zeit tun. Der Modellhost und die Bibliotheken zum Herunterladen des Modells sind möglicherweise nicht effizient. Das Herunterladen aus dem Internet birgt ein Zuverlässigkeitsrisiko. Ihre Worker-Pools können nicht gestartet werden, wenn das Downloadziel nicht verfügbar ist. Außerdem kann sich das heruntergeladene zugrunde liegende Modell ändern, was die Qualität verringert. Wir empfehlen, die Dateien in Ihrem eigenen Cloud Storage-Bucket zu hosten.	Abhängig vom Anbieter des Modell-Hostings.

Modelle in Cloud Storage speichern

Wenn Sie das Laden von ML-Modellen aus Cloud Storage optimieren möchten, entweder über Cloud Storage-Volumen-Bereitstellungen oder direkt über die Cloud Storage API oder die Befehlszeile, müssen Sie Direct VPC mit der Einstellung für ausgehenden Traffic auf all-traffic und privaten Google-Zugriff verwenden.

Gegen Aufpreis kann die Latenz beim Laden von Modellen durch die Verwendung von Rapid Cache reduziert werden. Dabei werden Daten effizient auf SSDs gecacht, um das Lesen zu beschleunigen.

Um die Lesezeiten für Modelle zu verkürzen, können Sie die folgenden Bereitstellungsoptionen verwenden, um Cloud Storage FUSE-Funktionen zu aktivieren:

cache-dir: Aktivieren Sie die Funktion für das Datei-Caching mit einer Bereitstellung eines In-Memory-Volumes, das als zugrunde liegendes Verzeichnis zum Speichern von Dateien verwendet werden soll. Legen Sie den Wert der Mount-Option cache-dir auf den Namen des In-Memory-Volumes im Format cr-volume:{volume name} fest. Wenn Sie beispielsweise ein In-Memory-Volume mit dem Namen in-memory-1 haben, das Sie als Cacheverzeichnis verwenden möchten, geben Sie cr-volume:in-memory-1 an. Wenn dieser Wert festgelegt ist, können Sie auch andere file-cache-Flags für die Cachekonfiguration festlegen.
enable-buffered-read: Setzen Sie das Feld enable-buffered-read auf true, um das asynchrone Prefetching von Teilen eines Cloud Storage-Objekts in einen Arbeitsspeicher-Puffer zu aktivieren. Dadurch können nachfolgende Lesevorgänge aus dem Puffer bedient werden, ohne dass Netzwerkaufrufe erforderlich sind. Wenn Sie dieses Feld konfigurieren, können Sie auch das Feld read-global-max-blocks festlegen, um die maximale Anzahl an Blöcken zu konfigurieren, die für gepufferte Lesevorgänge für alle Datei-Handles verfügbar sind.

Wenn sowohl cache-dir als auch enable-buffered-read verwendet werden, hat cache-dir Vorrang. Beachten Sie, dass die Aktivierung einer dieser Funktionen die Ressourcenabrechnung des Cloud Storage FUSE-Prozesses ändert, sodass sie unter den Container-Speicherlimits gezählt wird. Erhöhen Sie das Speicherlimit des Containers. Anleitung zum Konfigurieren von Speicherlimits

Modelle in Container-Images speichern

Wenn Sie das ML-Modell im Container-Image speichern, profitiert das Laden des Modells von der optimierten Container-Streaming-Infrastruktur von Cloud Run. Das Erstellen von Container-Images, die ML-Modelle enthalten, ist jedoch ein ressourcenintensiver Prozess, insbesondere bei der Arbeit mit großen Modellen. Insbesondere der Build-Prozess kann durch den Netzwerkdurchsatz beeinträchtigt werden. Wenn Sie Cloud Build verwenden, empfehlen wir, eine leistungsstärkere Build-Maschine mit erhöhter Rechen- und Netzwerkleistung zu verwenden. Dazu erstellen Sie ein Image mit einer Build-Konfigurationsdatei, die die folgenden Schritte enthält:

steps:
- name: 'gcr.io/cloud-builders/docker'
  args: ['build', '-t', 'IMAGE', '.']
- name: 'gcr.io/cloud-builders/docker'
  args: ['push', 'IMAGE']
images:
- IMAGE
options:
 machineType: 'E2_HIGHCPU_32'
 diskSizeGb: '500'

Sie können eine Modellkopie pro Bild erstellen, wenn sich die Ebene mit dem Modell zwischen den Bildern unterscheidet (unterschiedlicher Hash). Es können zusätzliche Kosten für Artifact Registry anfallen, da es möglicherweise eine Kopie des Modells pro Image gibt, wenn die Modellebene für jedes Image eindeutig ist.

Modelle aus dem Internet laden

Um das Laden von ML-Modellen aus dem Internet zu optimieren, leiten Sie den gesamten Traffic über das VPC-Netzwerk weiter, wobei der Wert der Egress-Einstellung auf all-traffic festgelegt ist, und richten Sie Cloud NAT ein, um das öffentliche Internet mit hoher Bandbreite zu erreichen.

Erwägungen zu Build, Bereitstellung, Laufzeit und Systemdesign

In den folgenden Abschnitten werden Überlegungen zu Build, Bereitstellung, Laufzeit und Systemdesign beschrieben.

Zur Build-Zeit

In der folgenden Liste finden Sie einige Aspekte, die Sie bei der Planung Ihres Builds berücksichtigen sollten:

Wählen Sie ein gutes Basis-Image aus. Beginnen Sie mit einem Image aus den Deep Learning Containern oder der NVIDIA-Container Registry für das verwendete ML-Framework. Bei diesen Images sind die neuesten leistungsrelevanten Pakete installiert. Wir raten davon ab, ein benutzerdefiniertes Image zu erstellen.
Wählen Sie 4-Bit-quantisierte Modelle aus, um die Nebenläufigkeit zu maximieren, sofern Sie nicht nachweisen können, dass sie die Ergebnisqualität beeinträchtigen. Durch die Quantisierung entstehen kleinere und schnellere Modelle, wodurch der für die Modellbereitstellung benötigte GPU-Speicher reduziert und die Parallelität zur Laufzeit erhöht wird. Idealerweise sollten die Modelle mit der Zielbittiefe trainiert werden, anstatt auf diese herunterquantisiert zu werden.
Wählen Sie ein Modellformat mit schnellen Ladezeiten aus, um die Startzeit des Containers zu minimieren, z. B. GGUF. Diese Formate entsprechen genauer dem Zielquantisierungstyp und erfordern weniger Transformationen für das Laden in die GPU. Aus Sicherheitsgründen sollten Sie keine Checkpoints im Pickle-Format verwenden.
LLM-Caches beim Build erstellen und vorwärmen Starten Sie das LLM auf dem Build-Computer, während Sie das Docker-Image erstellen. Aktivieren Sie das Prompt-Caching und geben Sie gängige oder Beispiel-Prompts ein, um den Cache für die Verwendung in der Praxis vorzubereiten. Speichern Sie die Ausgaben, die es generiert, damit sie zur Laufzeit geladen werden können.
Speichern Sie Ihr eigenes Inferenzmodell, das Sie während der Erstellung generieren. Das spart im Vergleich zum Laden weniger effizient gespeicherter Modelle und dem Anwenden von Transformationen wie der Quantisierung beim Starten des Containers viel Zeit.

Bei der Bereitstellung

Die folgende Liste enthält Aspekte, die Sie bei der Planung der Bereitstellung berücksichtigen müssen:

GPU-Worker-Pools können nicht automatisch skaliert werden. Die GPU wird Ihnen auch dann in Rechnung gestellt, wenn auf ihr keine Prozesse ausgeführt werden.
CPU und Arbeitsspeicher für Worker-Pools werden anders berechnet als für Dienste und Jobs. Die GPU-SKU wird jedoch genauso abgerechnet wie Dienste und Jobs.

Während der Laufzeit

Passen Sie die unterstützte Kontextlänge an. Je kleiner das Kontextfenster, desto mehr Anfragen können parallel ausgeführt werden. Die Details dazu hängen vom Framework ab.
Verwenden Sie die LLM-Caches, die Sie während der Erstellung generiert haben. Geben Sie dieselben Flags an, die Sie während der Build-Phase verwendet haben, als Sie den Prompt- und Präfix-Cache generiert haben.
Laden Sie das gespeicherte Modell, das Sie gerade erstellt haben. Unter Vor- und Nachteile beim Speichern und Laden von ML-Modellen finden Sie einen Vergleich der verschiedenen Möglichkeiten zum Laden des Modells.
Verwenden Sie einen quantisierten Schlüssel/Wert-Paar-Cache, sofern Ihr Framework dies unterstützt. Dadurch kann der Speicherbedarf pro Abfrage reduziert und mehr Parallelität konfiguriert werden. Dies kann sich jedoch auch auf die Qualität auswirken.
Legen Sie die GPU-Arbeitsspeichermenge fest, die für die Modellgewichtungen, die Aktivierungen und den Schlüssel/Wert-Paar-Cache reserviert werden soll. Stellen Sie den Wert so hoch wie möglich ein, ohne dass ein Fehler aufgrund von zu wenig Arbeitsspeicher auftritt.
Prüfen Sie, ob Ihr Framework Optionen zur Verbesserung der Container-Startleistung bietet, z. B. durch Parallelisierung des Modellladens.

Auf Systemdesignebene

Fügen Sie gegebenenfalls semantische Caches hinzu. In einigen Fällen kann das Zwischenspeichern ganzer Anfragen und Antworten eine gute Möglichkeit sein, die Kosten für häufige Anfragen zu begrenzen.
Varianz in Ihren Präambeln kontrollieren Prompt-Caches sind nur nützlich, wenn sie die Prompts in der richtigen Reihenfolge enthalten. Caches werden effektiv als Präfix-Cache gespeichert. Einfügungen oder Änderungen in der Sequenz bedeuten, dass sie entweder nicht im Cache gespeichert oder nur teilweise vorhanden sind.

Best Practices: Cloud Run-Worker-Pools mit GPUs Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.