Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

GPUs für Cloud Run-Jobs konfigurieren

Auf dieser Seite wird die GPU-Konfiguration für Ihre Cloud Run-Jobs beschrieben. GPUs eignen sich gut für KI-Arbeitslasten wie das Trainieren großer Sprachmodelle (Large Language Models, LLMs) mit Ihren bevorzugten Frameworks, das Ausführen von Batch- oder Offline-Inferenzen für LLMs und die Verarbeitung anderer rechenintensiver Aufgaben wie Videoverarbeitung und Grafikrendering als Hintergrundjobs. Google bietet die NVIDIA RTX PRO 6000 Blackwell-GPU mit 96 GB GPU-Speicher (VRAM) und NVIDIA L4-GPUs mit 24 GB GPU-Speicher (VRAM) an, die vom Instanzspeicher getrennt sind.

Die GPU auf Cloud Run ist vollständig verwaltet und erfordert keine zusätzlichen Treiber oder Bibliotheken benötigt. Die GPU-Funktion bietet On-Demand-Verfügbarkeit ohne erforderliche Reservierungen, ähnlich wie bei On-Demand-CPUs und On-Demand-Arbeitsspeicher in Cloud Run.

Cloud Run-Instanzen mit einer angehängten NVIDIA RTX PRO 6000 Blackwell-GPU oder L4-GPU mit vorinstallierten Treibern starten in etwa 5 Sekunden. Danach können die in Ihrem Container ausgeführten Prozesse die GPU verwenden.

Sie können eine GPU pro Cloud Run-Instanz konfigurieren. Wenn Sie Sidecar-Container verwenden, kann die GPU nur an einen Container angehängt werden.

Unterstützte GPU-Typen

Cloud Run unterstützt zwei Arten von GPUs:

NVIDIA RTX PRO 6000 Blackwell-GPU mit der aktuellen NVIDIA-Treiberversion: 580.x.x (13.0). Für die NVIDIA RTX PRO 6000 Blackwell-GPU müssen Sie mindestens 20 CPUs und 80 GiB Arbeitsspeicher verwenden.
L4-GPU mit der aktuellen NVIDIA-Treiberversion: 535.x.x (12.2). Für L4-GPUs müssen Sie mindestens 4 CPUs und 16 GiB Arbeitsspeicher verwenden.

Unterstützte Regionen

Die folgenden Regionen werden von der NVIDIA RTX PRO 6000 Blackwell-GPU unterstützt:

asia-southeast1 (Singapur)
asia-south2 (Delhi, Indien)
europe-west4 (Niederlande) Niedriger CO₂
us-central1 (Iowa) Niedriger CO₂

Die folgenden Regionen werden von der L4-GPU unterstützt:

asia-southeast1 (Singapur)
asia-south1 (Mumbai) . Diese Region ist nur auf Einladung verfügbar. Wenden Sie sich an Ihr Google-Kontoteam, wenn Sie an dieser Region interessiert sind.
europe-west1 (Belgien) Niedriger CO₂
europe-west4 (Niederlande) Niedriger CO₂
us-central1 (Iowa) Niedriger CO₂ . Für die zusätzliche Ressourcenskalierung in dieser Region ist möglicherweise eine Kontingenterhöhung erforderlich. Wenden Sie sich an Ihr Google-Kontenteam, wenn Sie an dieser Region interessiert sind.
us-east4 (Nord-Virginia) . Für die zusätzliche Ressourcenskalierung in dieser Region ist möglicherweise eine Kontingenterhöhung erforderlich. Wenden Sie sich an Ihr Google-Kontenteam, wenn Sie an dieser Region interessiert sind.

Auswirkungen auf die Kosten

Details zu den GPU-Preisen finden Sie unter Cloud Run-Preise. Beachten Sie die folgenden Anforderungen und Überlegungen:

Für GPUs für Jobs gelten die Preise für „Keine zonale Redundanz“.
Die CPU- und Arbeitsspeicherkonfigurationen Ihrer Ressource.
Die GPU wird für die gesamte Dauer des Instanzlebenszyklus in Rechnung gestellt.

Nicht zonale GPU-Redundanz

Die Cloud Run-Jobs-Funktion bietet nur für GPU-fähige Instanzen Unterstützung für nicht zonale Redundanz. Wenn die nicht zonale Redundanz aktiviert ist, versucht Cloud Run nach besten Kräften, ein Failover für GPU-fähige Jobs durchzuführen. Cloud Run leitet Jobausführungen nur dann an andere Zonen weiter, wenn zu diesem Zeitpunkt ausreichend GPU-Kapazität verfügbar ist. Diese Option garantiert keine reservierte Kapazität für Failover-Szenarien, führt aber zu niedrigeren Kosten pro GPU-Sekunde.

Informationen zum Aktivieren der nicht zonalen Redundanz finden Sie unter Cloud Run-Job mit GPU konfigurieren.

Kontingenterhöhung anfordern

Das Kontingent für nvidia-rtx-pro-6000-GPUs für Cloud Run wird in Milli-GPUs gewährt. Projekten, die nvidia-rtx-pro-6000-GPUs in einer Region zum ersten Mal verwenden, wird automatisch ein Kontingent von 3.000 Milli-GPUs gewährt (zonale Redundanz deaktiviert), wenn die erste Bereitstellung erstellt wird. Das entspricht 3 GPUs. Projekten, die nvidia-l4-GPUs für Cloud Run in einer Region zum ersten Mal verwenden, wird automatisch ein Kontingent von 3 GPUs gewährt (zonale Redundanz deaktiviert), wenn die erste Bereitstellung erstellt wird.

Diese automatische Kontingentgewährung ist von der Verfügbarkeit abhängig, die von Ihrer CPU- und Arbeitsspeicherkapazität abhängt. Dadurch wird die Anzahl der GPUs begrenzt, die zu einem bestimmten Zeitpunkt in allen Diensten, Jobs und Worker-Pools des Projekts aktiv sein können.

Wenn Sie zusätzliche Cloud Run-GPUs für Jobs benötigen, fordern Sie eine Kontingenterhöhung an.

Hinweis

In der folgenden Liste werden die Anforderungen und Einschränkungen bei der Verwendung von GPUs in Cloud Run beschrieben:

Melden Sie sich in Ihrem Google Cloud Konto an. Wenn Sie mit Google Cloudnoch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Cloud Run API aktivieren
Rollen, die zum Aktivieren von APIs erforderlich sind
Zum Aktivieren von APIs benötigen Sie die IAM-Rolle „Service Usage-Administrator“ (roles/serviceusage.serviceUsageAdmin), die die Berechtigung serviceusage.services.enable enthält. Informationen zum Zuweisen von Rollen.
API aktivieren

Unter Best Practices: Cloud Run-Jobs mit GPUs finden Sie Informationen zur Leistungsoptimierung bei der Verwendung von Cloud Run-Jobs mit GPUs.

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für Jobs zuzuweisen, um die zum Konfigurieren von Cloud Run-Jobs erforderlichen Berechtigungen zu erhalten:

Cloud Run-Entwickler (roles/run.developer) – Cloud Run-Job
Dienstkontonutzer (roles/iam.serviceAccountUser) – Dienstidentität

Eine Liste der IAM-Rollen und -Berechtigungen im Zusammenhang mit Cloud Run finden Sie unter IAM-Rollen für Cloud Run und IAM-Berechtigungen für Cloud Run. Wenn Ihr Cloud Run-Job mit Google Cloud APIs wie Cloud-Clientbibliotheken verknüpft ist, lesen Sie die Konfigurationsanleitung für Dienstidentitäten. Weitere Informationen zum Zuweisen von Rollen finden Sie unter Bereitstellungsberechtigungen und Zugriff verwalten.

Cloud Run-Job für die Verwendung von GPUs konfigurieren

Sie können die Google Cloud Konsole, die Google Cloud CLI oder YAML verwenden, um die GPU zu konfigurieren.

Console

Wechseln Sie in der Google Cloud Konsole zur Seite Cloud Run-Jobs:

Zu Cloud Run
Klicken Sie auf Container bereitstellen , um die Seite mit den anfänglichen Jobeinstellungen auszufüllen. Wenn Sie einen vorhandenen Job konfigurieren, wählen Sie den Job aus und klicken Sie dann auf Jobkonfiguration ansehen und bearbeiten.
Klicken Sie auf Container, Verbindungen, Sicherheit , um die Seite mit den Jobattributen zu maximieren.
Klicken Sie auf den Tab Container.
- Konfigurieren Sie CPU, Arbeitsspeicher und Startprüfung gemäß den Empfehlungen unter Vorbereitung.
- Setzen Sie ein Häkchen im Kästchen „GPU“. Wählen Sie dann im Menü GPU-Typ den GPU-Typ und im Menü Anzahl der GPUs die Anzahl der GPUs aus.
Klicken Sie auf Erstellen oder Aktualisieren.

gcloud

Wenn Sie die nicht zonale Redundanz aktivieren möchten, müssen Sie --no-gpu-zonal-redundancy angeben. Dies ist für die Verwendung von GPUs mit Jobs erforderlich.

Verwenden Sie den gcloud run jobs create Befehl, um einen Job mit aktivierten GPUs zu erstellen:

    gcloud run jobs create JOB_NAME \
      --image=IMAGE \
      --gpu=1 \
      --no-gpu-zonal-redundancy

Ersetzen Sie Folgendes:

JOB_NAME: Der Name Ihres Cloud Run-Jobs.
IMAGE_URL: Ein Verweis auf das Container-Image, z. B. us-docker.pkg.dev/cloudrun/container/job:latest.

Verwenden Sie den Befehl gcloud run jobs update, um die GPU-Konfiguration für einen Job zu aktualisieren:

    gcloud run jobs update JOB_NAME \
      --image IMAGE_URL \
      --cpu CPU \
      --memory MEMORY \
      --gpu GPU_NUMBER \
      --gpu-type GPU_TYPE \
      --parallelism PARALLELISM \
      --no-gpu-zonal-redundancy

Ersetzen Sie Folgendes:

JOB_NAME: Der Name Ihres Cloud Run-Jobs.
IMAGE_URL: Ein Verweis auf das Container-Image, z. B. us-docker.pkg.dev/cloudrun/container/job:latest.
CPU: Die Anzahl der CPUs. Für die NVIDIA RTX PRO 6000 Blackwell-GPU müssen Sie mindestens 20 CPUs angeben. Für die L4-GPU müssen Sie mindestens 4 CPUs angeben.
MEMORY: Die Größe des Arbeitsspeichers. Für die NVIDIA RTX PRO 6000 Blackwell-GPU müssen Sie mindestens 80Gi (80 GiB) angeben. Für die L4-GPU müssen Sie mindestens 16Gi (16 GiB) angeben.
GPU_NUMBER: der Wert 1 (eins). Wenn dieser Wert nicht angegeben ist, aber ein GPU_TYPE vorhanden ist, ist der Standardwert 1.
GPU_TYPE: Der GPU-Typ. Geben Sie für die NVIDIA RTX PRO 6000 Blackwell-GPU nvidia-rtx-pro-6000 ein. Geben Sie für die L4-GPU den Wert nvidia-l4 ein (nvidia-L4 Kleinbuchstabe L, nicht numerischer Wert vierzehn).
PARALLELISM: Ein ganzzahliger Wert, der kleiner als der niedrigste Wert der anwendbaren Kontingentlimits ist, die Sie für Ihr Projekt zugewiesen haben.

YAML

Sie müssen die Annotation run.googleapis.com/gpu-zonal-redundancy-disabled: auf „true“ setzen. Dadurch wird die nicht zonale Redundanz aktiviert, die für GPUs für Jobs erforderlich ist.

Wenn Sie einen neuen Job erstellen, überspringen Sie diesen Schritt. Wenn Sie einen vorhandenen Job aktualisieren, laden Sie die zugehörige YAML-Konfiguration herunter:
```
gcloud run jobs describe JOB_NAME --format export > job.yaml
```
Aktualisieren Sie das nvidia.com/gpu Attribut, annotations: run.googleapis.com/launch-stage für die Startphase und nodeSelector: run.googleapis.com/accelerator:
```
apiVersion: run.googleapis.com/v1
kind: Job
metadata:
  name: JOB_NAME
  labels:
    cloud.googleapis.com/location: REGION
spec:
  template:
    metadata:
      annotations:
        run.googleapis.com/gpu-zonal-redundancy-disabled: 'true'
    spec:
      template:
        spec:
          containers:
          - image: IMAGE_URL
            limits:
              cpu: 'CPU'
              memory: 'MEMORY'
              nvidia.com/gpu: 'GPU_NUMBER'
          nodeSelector:
            run.googleapis.com/accelerator: GPU_TYPE
```
Ersetzen Sie Folgendes:
- JOB_NAME: Der Name Ihres Cloud Run-Jobs.
- IMAGE_URL: Ein Verweis auf das Container-Image, z. B. us-docker.pkg.dev/cloudrun/container/job:latest
- CPU: Die Anzahl der CPUs. Für die NVIDIA RTX PRO 6000 Blackwell-GPU müssen Sie mindestens 20 CPUs angeben. Für die L4-GPU müssen Sie mindestens 4 CPUs angeben.
- MEMORY: Die Größe des Arbeitsspeichers. Für die NVIDIA RTX PRO 6000 Blackwell-GPU müssen Sie mindestens 80Gi (80 GiB) angeben. Für die L4-GPU müssen Sie mindestens 16Gi (16 GiB) angeben.
- GPU_NUMBER: Der Wert 1 (eins), da wir nur das Anhängen einer GPU pro Cloud Run-Instanz unterstützen.
- GPU_TYPE: Der GPU-Typ. Geben Sie für die NVIDIA RTX PRO 6000 Blackwell-GPU nvidia-rtx-pro-6000 ein. Geben Sie für die L4-GPU den Wert nvidia-l4 ein (nvidia-L4 Kleinbuchstabe L, nicht numerischer Wert vierzehn).
Erstellen oder aktualisieren Sie den Dienst mit dem folgenden Befehl:
```
gcloud run jobs replace job.yaml
```
Der Befehl gcloud run jobs replace verwendet standardmäßig die Datei job.yaml, falls vorhanden.

GPU-Einstellungen aufrufen

So rufen Sie die aktuellen GPU-Einstellungen für Ihren Cloud Run-Job auf:

Console

Wechseln Sie in der Google Cloud Konsole zur Seite „Cloud Run-Jobs“:

Zu Cloud Run-Jobs
Klicken Sie auf den gewünschten Job, um die Seite Jobdetails zu öffnen.
Klicken Sie auf Jobkonfiguration ansehen und bearbeiten.
Suchen Sie in den Konfigurationsdetails nach der GPU-Einstellung.

gcloud

Verwenden Sie den folgenden Befehl:
```
gcloud run jobs describe JOB_NAME
```
Suchen Sie in der zurückgegebenen Konfiguration nach der GPU-Einstellung.

GPU-Ressourcen von einem Job trennen

Sie können GPU-Ressourcen über die Google Cloud Konsole, die Google Cloud CLI oder YAML von einem Job trennen.

Console

Wechseln Sie in der Google Cloud Konsole zur Seite Cloud Run-Jobs:

Zu Cloud Run
Klicken Sie in der Liste der Jobs auf einen Job, um die Details dieses Jobs zu öffnen.
Klicken Sie auf Jobkonfiguration ansehen und bearbeiten.
Klicken Sie auf Container, Verbindungen, Sicherheit , um die Seite mit den Jobattributen zu maximieren.
Klicken Sie auf den Tab Container.
- Entfernen Sie das Häkchen aus dem Kästchen „GPU“.
Klicken Sie auf Aktualisieren.

gcloud

Wenn Sie GPU-Ressourcen von Ihrem Cloud Run-Job trennen möchten, setzen Sie die Anzahl der GPUs mit dem Befehl gcloud run jobs update auf 0:

  gcloud run jobs update JOB_NAME --gpu 0

Ersetzen Sie JOB_NAME durch den Namen Ihres Cloud Run-Jobs.

YAML

Wenn Sie einen neuen Job erstellen, überspringen Sie diesen Schritt. Wenn Sie einen vorhandenen Job aktualisieren, laden Sie die zugehörige YAML-Konfiguration herunter:
```
gcloud run jobs describe JOB_NAME --format export > job.yaml
```
Löschen Sie die Zeilen nvidia.com/gpu:, run.googleapis.com/gpu-zonal-redundancy-disabled: 'true' und nodeSelector: run.googleapis.com/accelerator: GPU_TYPE.
Erstellen oder aktualisieren Sie den Dienst mit dem folgenden Befehl:
```
gcloud run jobs replace job.yaml
```
Der Befehl gcloud run jobs replace verwendet standardmäßig die Datei job.yaml, falls vorhanden.

Treiberbibliotheken

Standardmäßig werden alle Treiberbibliotheken der NVIDIA RTX PRO 6000 Blackwell-GPU und der NVIDIA L4-GPU unter /usr/local/nvidia/lib64 eingebunden. Cloud Run fügt diesen Pfad automatisch an die LD_LIBRARY_PATH Umgebungsvariable an (d.h. ${LD_LIBRARY_PATH}:/usr/local/nvidia/lib64) des Containers mit der GPU. So kann der dynamische Linker die NVIDIA-Treiberbibliotheken finden. Der Linker sucht und löst Pfade in der Reihenfolge auf, die Sie in der Umgebungsvariable LD_LIBRARY_PATH angeben. Alle in dieser Variablen angegebenen Werte haben Vorrang vor dem Standardpfad der Cloud Run-Treiberbibliotheken /usr/local/nvidia/lib64.

Wenn Sie eine CUDA-Version höher als 12.2 verwenden möchten, ist es am einfachsten, von einem neueren NVIDIA-Basis-Image abzuhängen, auf dem bereits Pakete für die Aufwärtskompatibilität installiert sind. Eine weitere Möglichkeit besteht darin, die NVIDIA-Pakete für die Aufwärtskompatibilität manuell zu installieren und sie zu LD_LIBRARY_PATHhinzuzufügen. Sehen Sie sich die Kompatibilitätsmatrix von NVIDIA an, um zu ermitteln, welche CUDA-Versionen mit der bereitgestellten NVIDIA Treiberversion aufwärtskompatibel sind.

GPUs und Parallelität

Wenn Sie parallele Aufgaben in einer Jobausführung ausführen, bestimmen und legen Sie den Parallelitätswert auf einen Wert fest, der kleiner als das für Ihr Projekt zugewiesene GPU-Kontingent ohne zonale Redundanz ist. Informationen zum Anfordern einer Kontingenterhöhung finden Sie unter Kontingent erhöhen. GPU-Aufgaben werden so schnell wie möglich gestartet. Der Höchstwert hängt davon ab, wie viel GPU-Kontingent Sie für das Projekt und die ausgewählte Region zugewiesen haben. Cloud Run-Bereitstellungen schlagen fehl, wenn Sie die Parallelität auf einen Wert über dem GPU-Kontingentlimit festlegen.

Um das GPU-Kontingent zu berechnen, das Ihr Job pro Ausführung verwendet, multiplizieren Sie die Anzahl der GPUs pro Jobaufgabe mit dem Parallelitätswert. Wenn Sie beispielsweise ein GPU-Kontingent von 10 haben und Ihren Cloud Run-Job mit --gpu=1 und --parallelism=10 bereitstellen, verbraucht Ihr Job das gesamte GPU-Kontingent von 10. Wenn Sie die Bereitstellung mit --gpu=1 und --parallelism=20 ausführen, schlagen die Bereitstellungen fehl.

Weitere Informationen finden Sie unter Best Practices: Cloud Run-Jobs mit GPUs.

Nächste Schritte

Tutorials finden Sie unter KI-Inferenz auf Cloud Run mit GPUs ausführen.

GPUs für Cloud Run-Jobs konfigurieren Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Unterstützte GPU-Typen

Unterstützte Regionen

Auswirkungen auf die Kosten

Nicht zonale GPU-Redundanz

Kontingenterhöhung anfordern

Hinweis

Erforderliche Rollen

Cloud Run-Job für die Verwendung von GPUs konfigurieren

Console

gcloud

YAML

GPU-Einstellungen aufrufen

Console

gcloud

GPU-Ressourcen von einem Job trennen

Console

gcloud

YAML

Treiberbibliotheken

GPUs und Parallelität

Nächste Schritte

GPUs für Cloud Run-Jobs konfigurieren