GPUMaschinentypen

In diesem Dokument werden die NVIDIA-GPU-Modelle beschrieben, die Sie verwenden können, um Arbeitslasten für maschinelles Lernen, Datenverarbeitung und grafikintensive Arbeitslasten auf Ihren Compute Engine-Instanzen zu beschleunigen. In diesem Dokument wird auch beschrieben, welche GPUs an beschleunigungsoptimierte Maschinenserien wie A4X Max, A4X, A4, A3, A2, G4 und G2 vorab angehängt sind und welche GPUs Sie an N1-Instanzen für allgemeine Zwecke anhängen können.

In diesem Dokument können Sie die Leistung, den Speicher und die Funktionen verschiedener GPU-Modelle vergleichen. Eine detailliertere Übersicht über die beschleunigungsoptimierte Maschinenfamilie mit Informationen zu CPU-Plattformen, Speicheroptionen und Netzwerkfunktionen sowie den spezifischen Maschinentyp, der zu Ihrer Arbeitslast passt, finden Sie unter Beschleunigungsoptimierte Maschinenfamilie.

Weitere Informationen zu GPUs in Compute Engine finden Sie unter GPUs.

Hinweis: Informationen zu den verfügbaren Regionen und Zonen für GPUs in Compute Engine finden Sie unter Verfügbarkeit von GPU-Regionen und -Zonen.

GPUMaschinentypen

Compute Engine bietet verschiedene Maschinentypen zur Unterstützung Ihrer unterschiedlichen Arbeitslasten.

Einige Maschinentypen unterstützen NVIDIA RTX Virtual Workstations (vWS). Wenn Sie eine Instanz erstellen, die NVIDIA RTX Virtual Workstation verwendet, fügt Compute Engine automatisch eine vWS-Lizenz hinzu. Informationen zu Preisen für virtuelle Workstations finden Sie auf der Seite „GPU-Preise“.

GPUMaschinentypen
KI- und ML-Arbeitslasten Grafiken und Visualisierung Andere GPU-Arbeitslasten
Beschleunigeroptimierte Maschinentypen der A-Serie sind für Arbeitslasten aus den Bereichen Hochleistungs-Computing (HPC), künstliche Intelligenz (KI) und maschinelles Lernen (ML) konzipiert.

Die A-Serie der neueren Generation eignet sich ideal für das Vortraining und die Feinabstimmung von Foundation Models, für die große Cluster von Beschleunigern erforderlich sind. Die A2-Serie kann für das Training kleinerer Modelle und die Inferenz auf einem einzelnen Host verwendet werden.

Bei diesen Maschinentypen wird das GPU-Modell automatisch an die Instanz angehängt.

Beschleunigungsoptimierte Maschinentypen der G-Serie sind für Arbeitslasten wie NVIDIA Omniverse-Simulationsarbeitslasten, grafikintensive Anwendungen, Videotranscodierung und virtuelle Desktops konzipiert. Diese Maschinentypen unterstützen NVIDIA RTX Virtual Workstations (vWS).

Die G-Serie kann auch für das Training kleinerer Modelle und für die Inferenz mit einzelnen Hosts verwendet werden.

Bei diesen Maschinentypen wird das GPU-Modell automatisch an die Instanz angehängt.

An N1-Maschinentypen für allgemeine Zwecke, mit Ausnahme des gemeinsam genutzten N1-Kerns (f1-micro und g1-small), können Sie eine ausgewählte Gruppe von GPU-Modellen anhängen. Einige dieser GPU-Modelle unterstützen auch NVIDIA RTX Virtual Workstations (vWS).

  • A4X Max (NVIDIA GB300 Ultra Superchips)
    (nvidia-gb300)
  • A4X (NVIDIA GB200 Superchips)
    (nvidia-gb200)
  • A4 (NVIDIA B200)
    (nvidia-b200)
  • A3 Ultra (NVIDIA H200)
    (nvidia-h200-141gb)
  • A3 Mega (NVIDIA H100)
    (nvidia-h100-mega-80gb)
  • A3 High (NVIDIA H100)
    (nvidia-h100-80gb)
  • A3 Edge (NVIDIA H100)
    (nvidia-h100-80gb)
  • A2 Ultra (NVIDIA A100 80GB)
    (nvidia-a100-80gb)
  • A2 Standard (NVIDIA A100)
    (nvidia-a100-40gb)
  • G4 (NVIDIA RTX PRO 6000)
    (nvidia-rtx-pro-6000)
    (nvidia-rtx-pro-6000-vws)
  • G2 (NVIDIA L4)
    (nvidia-l4)
    (nvidia-l4-vws)
Die folgenden GPU-Modelle können an N1-Maschinentypen für allgemeine Zwecke angehängt werden:
  • NVIDIA T4
    (nvidia-tesla-t4)
    (nvidia-tesla-t4-vws)
  • NVIDIA P4
    (nvidia-tesla-p4)
    (nvidia-tesla-p4-vws)
  • NVIDIA V100
    (nvidia-tesla-v100)
  • NVIDIA P100
    (nvidia-tesla-p100)
    (nvidia-tesla-p100-vws)

Sie können auch einige GPU-Maschinentypen auf AI Hypercomputer verwenden. AI Hypercomputer ist ein Supercomputing-System, das Ihre Arbeitslasten im Bereich künstliche Intelligenz (KI) und maschinelles Lernen (ML) unterstützt. Diese Option wird empfohlen, um eine dicht zugewiesene, leistungsoptimierte Infrastruktur mit Integrationen für Google Kubernetes Engine- (GKE-) und Slurm-Scheduler zu erstellen.

A4X Max- und A4X-Maschinenserie

Die Maschinenreihen A4X Max und A4X basieren auf einer Exascale-Plattform, die auf der Rack-Scale-Architektur von NVIDIA basiert und für rechen- und speicherintensive, netzwerkgebundene ML-Trainings und HPC-Arbeitslasten optimiert ist. A4X Max und A4X unterscheiden sich hauptsächlich in ihren GPU- und Netzwerkkomponenten. A4X Max bietet auch Bare-Metal-Instanzen, die direkten Zugriff auf die CPU und den Arbeitsspeicher des Hostservers ohne die Compute Engine-Hypervisor-Ebene ermöglichen.

A4X Max-Maschinentypen (Bare Metal)

Bei beschleunigungsoptimierten A4X Max-Maschinentypen werden NVIDIA GB300 Grace Blackwell Ultra-Superchips (nvidia-gb300) verwendet. Sie eignen sich ideal für das Training und die Bereitstellung von Foundation Models. A4X Max-Maschinentypen sind als Bare-Metal-Instanzen verfügbar.

A4X Max ist eine Exascale-Plattform, die auf NVIDIA GB300 NVL72 basiert. Jede Maschine hat zwei Sockel mit NVIDIA Grace-CPUs mit Arm Neoverse V2-Kernen. Diese CPUs sind über eine schnelle Chip-zu-Chip-Kommunikation (NVLink-C2C) mit vier NVIDIA B300 Blackwell-GPUs verbunden.

Angehängte NVIDIA Grace Blackwell Ultra-Superchips
Maschinentyp vCPU-Anzahl1 Instanzarbeitsspeicher (GB) Verbundene lokale SSD (GiB) Anzahl der physischen Netzwerkkarten Maximale Netzwerkbandbreite (Gbit/s)2 GPU-Anzahl GPU-Arbeitsspeicher3
(GB HBM3e)
a4x-maxgpu-4g-metal 144 960 12.000 6 3.600 4 1.116

1 Eine vCPU ist als einzelner Hardware-Hyper-Thread auf einer der verfügbaren CPU-Plattformen implementiert.
2 Die maximale Bandbreite für ausgehenden Traffic darf die angegebene Zahl nicht überschreiten. Die tatsächliche Bandbreite für ausgehenden Traffic hängt von der Ziel-IP-Adresse und anderen Faktoren ab. Weitere Informationen zur Netzwerkbandbreite finden Sie unter Netzwerkbandbreite.
3 GPU-Arbeitsspeicher ist der Speicher auf einem GPU-Gerät, der zum temporären Speichern von Daten verwendet werden kann. Es ist vom Arbeitsspeicher der Instanz getrennt und wurde speziell für die höheren Bandbreitenanforderungen grafikintensiver Arbeitslasten entwickelt.

A4X-Maschinentypen

Beschleunigungsoptimierte A4X-Maschinentypen verwenden NVIDIA GB200 Grace Blackwell-Superchips (nvidia-gb200) und eignen sich ideal für das Training und die Bereitstellung von Foundation Models.

A4X ist eine Exascale-Plattform, die auf NVIDIA GB200 NVL72 basiert. Jede Maschine hat zwei Sockel mit NVIDIA Grace-CPUs mit Arm Neoverse V2-Kernen. Diese CPUs sind über eine schnelle Chip-zu-Chip-Kommunikation (NVLink-C2C) mit vier NVIDIA B200 Blackwell-GPUs verbunden.

Angehängte NVIDIA GB200 Grace Blackwell-Superchips
Maschinentyp vCPU-Anzahl1 Instanzarbeitsspeicher (GB) Verbundene lokale SSD (GiB) Anzahl der physischen Netzwerkkarten Maximale Netzwerkbandbreite (Gbit/s)2 GPU-Anzahl GPU-Arbeitsspeicher3
(GB HBM3e)
a4x-highgpu-4g 140 884 12.000 6 2.000 4 744

1 Eine vCPU ist als einzelner Hardware-Hyper-Thread auf einer der verfügbaren CPU-Plattformen implementiert.
2 Die maximale Bandbreite für ausgehenden Traffic darf die angegebene Zahl nicht überschreiten. Die tatsächliche Bandbreite für ausgehenden Traffic hängt von der Ziel-IP-Adresse und anderen Faktoren ab. Weitere Informationen zur Netzwerkbandbreite finden Sie unter Netzwerkbandbreite.
3 GPU-Arbeitsspeicher ist der Speicher auf einem GPU-Gerät, der zum temporären Speichern von Daten verwendet werden kann. Es ist vom Arbeitsspeicher der Instanz getrennt und wurde speziell für die höheren Bandbreitenanforderungen grafikintensiver Arbeitslasten entwickelt.

A4-Maschinenserie

Beschleunigungsoptimierte A4-Maschinentypen haben NVIDIA B200 Blackwell-GPUs (nvidia-b200) angehängt und eignen sich ideal für das Training und die Bereitstellung von Foundation Models.

Angehängte NVIDIA B200 Blackwell-GPUs
Maschinentyp vCPU-Anzahl1 Instanzarbeitsspeicher (GB) Verbundene lokale SSD (GiB) Anzahl der physischen Netzwerkkarten Maximale Netzwerkbandbreite (Gbit/s)2 GPU-Anzahl GPU-Arbeitsspeicher3
(GB HBM3e)
a4-highgpu-8g 224 3.968 12.000 10 3.600 8 1.440

1 Eine vCPU ist als einzelner Hardware-Hyper-Thread auf einer der verfügbaren CPU-Plattformen implementiert.
2 Die maximale Bandbreite für ausgehenden Traffic darf die angegebene Zahl nicht überschreiten. Die tatsächliche Bandbreite für ausgehenden Traffic hängt von der Ziel-IP-Adresse und anderen Faktoren ab. Weitere Informationen zur Netzwerkbandbreite finden Sie unter Netzwerkbandbreite.
3 GPU-Arbeitsspeicher ist der Speicher auf einem GPU-Gerät, der zum temporären Speichern von Daten verwendet werden kann. Es ist vom Arbeitsspeicher der Instanz getrennt und wurde speziell für die höheren Bandbreitenanforderungen grafikintensiver Arbeitslasten entwickelt.

A3-Maschinenserie

An beschleunigungsoptimierte A3-Maschinentypen sind NVIDIA H100 SXM- oder NVIDIA H200 SXM-GPUs angehängt.

A3 Ultra-Maschinentyp

An A3 Ultra-Maschinentypen sind NVIDIA H200 SXM-GPUs (nvidia-h200-141gb) angehängt. Sie bieten die höchste Netzwerkleistung in der A3-Serie. A3 Ultra-Maschinentypen eignen sich ideal für das Training und die Bereitstellung von Foundation Models.

Angehängte NVIDIA H200-GPUs
Maschinentyp vCPU-Anzahl1 Instanzarbeitsspeicher (GB) Verbundene lokale SSD (GiB) Anzahl der physischen Netzwerkkarten Maximale Netzwerkbandbreite (Gbit/s)2 GPU-Anzahl GPU-Arbeitsspeicher3
(GB HBM3e)
a3-ultragpu-8g 224 2.952 12.000 10 3.600 8 1128

1 Eine vCPU ist als einzelner Hardware-Hyper-Thread auf einer der verfügbaren CPU-Plattformen implementiert.
2 Die maximale Bandbreite für ausgehenden Traffic darf die angegebene Zahl nicht überschreiten. Die tatsächliche Bandbreite für ausgehenden Traffic hängt von der Ziel-IP-Adresse und anderen Faktoren ab. Weitere Informationen zur Netzwerkbandbreite finden Sie unter Netzwerkbandbreite.
3 GPU-Arbeitsspeicher ist der Speicher auf einem GPU-Gerät, der zum temporären Speichern von Daten verwendet werden kann. Es ist vom Arbeitsspeicher der Instanz getrennt und wurde speziell für die höheren Bandbreitenanforderungen grafikintensiver Arbeitslasten entwickelt.

A3 Mega-, High- und Edge-Maschinentypen

Wenn Sie NVIDIA H100 SXM-GPUs verwenden möchten, haben Sie folgende Möglichkeiten:

  • A3 Mega: An diese Maschinentypen sind H100 SXM-GPUs (nvidia-h100-mega-80gb) angehängt. Sie eignen sich ideal für umfangreiche Trainings- und Bereitstellungsarbeitslasten.
  • A3 High: Diese Maschinentypen haben H100 SXM-GPUs (nvidia-h100-80gb) und eignen sich gut für Trainings- und Serving-Aufgaben.
  • A3 Edge: An diese Maschinentypen sind H100 SXM-GPUs (nvidia-h100-80gb) angehängt. Sie wurden speziell für die Bereitstellung entwickelt und sind in einer begrenzten Anzahl von Regionen verfügbar.

A3 Mega

Angehängte NVIDIA H100-GPUs
Maschinentyp vCPU-Anzahl1 Instanzarbeitsspeicher (GB) Verbundene lokale SSD (GiB) Anzahl der physischen Netzwerkkarten Maximale Netzwerkbandbreite (Gbit/s)2 GPU-Anzahl GPU-Arbeitsspeicher3
(GB HBM3)
a3-megagpu-8g 208 1.872 6.000 9 1.800 8 640

A3 High

Angehängte NVIDIA H100-GPUs
Maschinentyp vCPU-Anzahl1 Instanzarbeitsspeicher (GB) Verbundene lokale SSD (GiB) Anzahl der physischen Netzwerkkarten Maximale Netzwerkbandbreite (Gbit/s)2 GPU-Anzahl GPU-Arbeitsspeicher3
(GB HBM3)
a3-highgpu-1g 26 234 750 1 25 1 80
a3-highgpu-2g 52 468 1.500 1 50 2 160
a3-highgpu-4g 104 936 3.000 1 100 4 320
a3-highgpu-8g 208 1.872 6.000 5 1.000 8 640

A3 Edge

Angehängte NVIDIA H100-GPUs
Maschinentyp vCPU-Anzahl1 Instanzarbeitsspeicher (GB) Verbundene lokale SSD (GiB) Anzahl der physischen Netzwerkkarten Maximale Netzwerkbandbreite (Gbit/s)2 GPU-Anzahl GPU-Arbeitsspeicher3
(GB HBM3)
a3-edgegpu-8g 208 1.872 6.000 5
  • 800: für asia-south1 und northamerica-northeast2
  • 400: für alle anderen A3 Edge-Regionen
8 640

1 Eine vCPU ist als einzelner Hardware-Hyper-Thread auf einer der verfügbaren CPU-Plattformen implementiert.
2 Die maximale Bandbreite für ausgehenden Traffic darf die angegebene Zahl nicht überschreiten. Die tatsächliche Bandbreite für ausgehenden Traffic hängt von der Ziel-IP-Adresse und anderen Faktoren ab. Weitere Informationen zur Netzwerkbandbreite finden Sie unter Netzwerkbandbreite.
3 GPU-Arbeitsspeicher ist der Speicher auf einem GPU-Gerät, der zum temporären Speichern von Daten verwendet werden kann. Es ist vom Arbeitsspeicher der Instanz getrennt und wurde speziell für die höheren Bandbreitenanforderungen grafikintensiver Arbeitslasten entwickelt.

A2-Maschinenserie

An beschleunigungsoptimierte A2-Maschinentypen sind NVIDIA A100-GPUs angehängt. Sie eignen sich ideal für das Feinabstimmen von Modellen sowie für die Inferenz großer Modelle und kostengünstige Inferenz.

A2-Maschinenserien sind in zwei Typen verfügbar:

  • A2 Ultra: An diese Maschinentypen sind A100-GPUs mit 80 GB (nvidia-a100-80gb) und lokale SSD-Laufwerke angehängt.
  • A2 Standard: An diese Maschinentypen sind A100-GPUs (nvidia-tesla-a100) mit 40 GB angehängt. Sie können auch beim Erstellen einer A2-Standardinstanz lokale SSD-Laufwerke hinzufügen. Informationen zur Anzahl der Laufwerke, die Sie anhängen können, finden Sie unter Maschinentypen, bei denen Sie eine bestimmte Anzahl von lokalen SSD-Laufwerken auswählen müssen.

A2-Ultra

Angehängte NVIDIA A100-GPUs mit 80 GB
Maschinentyp vCPU-Anzahl1 Instanzarbeitsspeicher (GB) Verbundene lokale SSD (GiB) Maximale Netzwerkbandbreite (Gbit/s)2 GPU-Anzahl GPU-Arbeitsspeicher3
(GB HBM2e)
a2-ultragpu-1g 12 170 375 24 1 80
a2-ultragpu-2g 24 340 750 32 2 160
a2-ultragpu-4g 48 680 1.500 50 4 320
a2-ultragpu-8g 96 1.360 3.000 100 8 640

A2-Standard

Angehängte NVIDIA A100-GPUs mit 40 GB
Maschinentyp vCPU-Anzahl1 Instanzarbeitsspeicher (GB) Unterstützung lokaler SSDs Maximale Netzwerkbandbreite (Gbit/s)2 GPU-Anzahl GPU-Arbeitsspeicher3
(GB HBM2)
a2-highgpu-1g 12 85 Ja 24 1 40
a2-highgpu-2g 24 170 Ja 32 2 80
a2-highgpu-4g 48 340 Ja 50 4 160
a2-highgpu-8g 96 680 Ja 100 8 320
a2-megagpu-16g 96 1.360 Ja 100 16 640

1 Eine vCPU ist als einzelner Hardware-Hyper-Thread auf einer der verfügbaren CPU-Plattformen implementiert.
2 Die maximale Bandbreite für ausgehenden Traffic darf die angegebene Zahl nicht überschreiten. Die tatsächliche Bandbreite für ausgehenden Traffic hängt von der Ziel-IP-Adresse und anderen Faktoren ab. Weitere Informationen zur Netzwerkbandbreite finden Sie unter Netzwerkbandbreite.
3 GPU-Arbeitsspeicher ist der Speicher auf einem GPU-Gerät, der zum temporären Speichern von Daten verwendet werden kann. Es ist vom Arbeitsspeicher der Instanz getrennt und wurde speziell für die höheren Bandbreitenanforderungen grafikintensiver Arbeitslasten entwickelt.

G4-Maschinenserie

Beschleunigungsoptimierte G4-Maschinentypen verwenden NVIDIA RTX PRO 6000 Blackwell Server Edition-GPUs (nvidia-rtx-pro-6000) und eignen sich für NVIDIA Omniverse-Simulationsarbeitslasten, grafikintensive Anwendungen, Videotranscodierung und virtuelle Desktops. G4-Maschinentypen bieten im Vergleich zu Maschinentypen der A-Serie auch eine kostengünstige Lösung für die Durchführung von Single-Host-Inferenz und Modelloptimierung.

Ein wichtiges Merkmal der G4-Serie ist die Unterstützung der direkten GPU-Peer-to-Peer-Kommunikation (P2P) bei Multi-GPU-Maschinentypen (g4-standard-96, g4-standard-192, g4-standard-384). Dadurch können GPUs innerhalb derselben Instanz Daten direkt über den PCIe-Bus austauschen, ohne dass der CPU-Host beteiligt ist. Weitere Informationen zur Peer-to-Peer-Kommunikation von G4-GPUs finden Sie unter Peer-to-Peer-Kommunikation von G4-GPUs.

Angehängte NVIDIA RTX PRO 6000-GPUs
Maschinentyp vCPU-Anzahl1 Instanzarbeitsspeicher (GB) Maximal unterstützte Titanium-SSD (GiB)2 Anzahl der physischen Netzwerkkarten Maximale Netzwerkbandbreite (Gbit/s)3 GPU-Anzahl GPU-Arbeitsspeicher4
(GB GDDR7)
g4-standard-48 48 180 1.500 1 50 1 96
g4-standard-96 96 360 3.000 1 100 2 192
g4-standard-192 192 720 6.000 1 200 4 384
g4-standard-384 384 1.440 12.000 2 400 8 768

1 Eine vCPU ist als einzelner Hardware-Hyper-Thread auf einer der verfügbaren CPU-Plattformen implementiert.
2 Sie können beim Erstellen einer G4-Instanz Titanium-SSD-Laufwerke hinzufügen. Informationen zur Anzahl der Laufwerke, die Sie anhängen können, finden Sie unter Maschinentypen, bei denen Sie eine bestimmte Anzahl von lokalen SSD-Laufwerken auswählen müssen.
3 Die maximale Bandbreite für ausgehenden Traffic darf die angegebene Zahl nicht überschreiten. Die tatsächliche Bandbreite für ausgehenden Traffic hängt von der Ziel-IP-Adresse und anderen Faktoren ab. Siehe Netzwerkbandbreite.
4 GPU-Arbeitsspeicher ist der Speicher auf einem GPU-Gerät, der zum temporären Speichern von Daten verwendet werden kann. Es ist vom Arbeitsspeicher der Instanz getrennt und wurde speziell für die höheren Bandbreitenanforderungen grafikintensiver Arbeitslasten entwickelt.

G2-Maschinenserie

Beschleunigungsoptimierte G2-Maschinentypen haben NVIDIA L4-GPUs angehängt und sind ideal für kostenoptimierte Inferenz-, grafikintensive und Hochleistungs-Computing-Arbeitslasten.

Jeder G2-Maschinentyp hat auch einen Standardarbeitsspeicher und einen benutzerdefinierten Arbeitsspeicherbereich. Der benutzerdefinierte Arbeitsspeicherbereich definiert die Größe des Arbeitsspeichers, den Sie Ihrer Instanz für jeden Maschinentyp zuweisen können. Sie können auch beim Erstellen einer G2-Instanz lokale SSD-Laufwerke hinzufügen. Informationen zur Anzahl der Laufwerke, die Sie anhängen können, finden Sie unter Maschinentypen, bei denen Sie eine bestimmte Anzahl von lokalen SSD-Laufwerken auswählen müssen.

Angehängte NVIDIA L4-GPUs
Maschinentyp vCPU-Anzahl1 Standard-Instanzarbeitsspeicher (GB) Benutzerdefinierter Instanzarbeitsspeicherbereich (GB) Maximal unterstützte lokale SSD (GiB) Maximale Netzwerkbandbreite (Gbit/s)2 GPU-Anzahl GPU-Arbeitsspeicher3 (GB GDDR6)
g2-standard-4 4 16 16 bis 32 375 10 1 24
g2-standard-8 8 32 32 bis 54 375 16 1 24
g2-standard-12 12 48 48 bis 54 375 16 1 24
g2-standard-16 16 64 54 bis 64 375 32 1 24
g2-standard-24 24 96 96 bis 108 750 32 2 48
g2-standard-32 32 128 96 bis 128 375 32 1 24
g2-standard-48 48 192 192 bis 216 1.500 50 4 96
g2-standard-96 96 384 384 bis 432 3.000 100 8 192

1 Eine vCPU ist als einzelner Hardware-Hyper-Thread auf einer der verfügbaren CPU-Plattformen implementiert.
2 Die maximale Bandbreite für ausgehenden Traffic darf die angegebene Zahl nicht überschreiten. Die tatsächliche Bandbreite für ausgehenden Traffic hängt von der Ziel-IP-Adresse und anderen Faktoren ab. Weitere Informationen zur Netzwerkbandbreite finden Sie unter Netzwerkbandbreite.
3 GPU-Arbeitsspeicher ist der Speicher auf einem GPU-Gerät, der zum temporären Speichern von Daten verwendet werden kann. Es ist vom Arbeitsspeicher der Instanz getrennt und wurde speziell für die höheren Bandbreitenanforderungen grafikintensiver Arbeitslasten entwickelt.

N1-Maschinenserie

Sie können die folgenden GPU-Modelle an N1-Maschinentypen anhängen, mit Ausnahme der N1-Maschinentypen mit gemeinsam genutztem Kern.

Im Gegensatz zu den Maschinentypen in der beschleunigungsoptimierten Maschinenreihe haben N1-Maschinentypen keine festgelegte Anzahl von angehängten GPUs. Stattdessen geben Sie beim Erstellen der Instanz die Anzahl der anzuhängenden GPUs an.

Bei N1-Instanzen mit weniger GPUs ist die maximale Anzahl von vCPUs begrenzt. Im Allgemeinen ermöglicht es Ihnen eine höhere Anzahl von GPUs, Instanzen mit einer größeren Anzahl von vCPUs und mehr Arbeitsspeicher zu erstellen.

N1+T4-GPUs

Sie können NVIDIA T4-GPUs mit den folgenden Instanzkonfigurationen an N1-Instanzen für allgemeine Zwecke anhängen.

Beschleunigertyp GPU-Anzahl GPU-Arbeitsspeicher1 (GB GDDR6) vCPU Anzahl Instanzarbeitsspeicher (GB) Unterstützung lokaler SSDs
nvidia-tesla-t4 oder
nvidia-tesla-t4-vws
1 16 1 bis 48 1 bis 312 Ja
2 32 1 bis 48 1 bis 312 Ja
4 64 1 bis 96 1 bis 624 Ja

1 GPU-Arbeitsspeicher ist der Speicher, der auf einem GPU-Gerät verfügbar ist und zum temporären Speichern von Daten verwendet werden kann. Es ist vom Arbeitsspeicher der Instanz getrennt und wurde speziell für die höheren Bandbreitenanforderungen grafikintensiver Arbeitslasten entwickelt.

N1+P4-GPUs

Sie können NVIDIA P4-GPUs mit den folgenden Instanzkonfigurationen an N1-Instanzen für allgemeine Zwecke anhängen.

Beschleunigertyp GPU-Anzahl GPU-Arbeitsspeicher1 (GB GDDR5) vCPU Anzahl Instanzarbeitsspeicher (GB) Unterstützung lokaler SSDs2
nvidia-tesla-p4 oder
nvidia-tesla-p4-vws
1 8 1 bis 24 1 bis 156 Ja
2 16 1 bis 48 1 bis 312 Ja
4 32 1 bis 96 1 bis 624 Ja

1 GPU-Arbeitsspeicher ist der Speicher, der auf einem GPU-Gerät verfügbar ist und zum temporären Speichern von Daten verwendet werden kann. Es ist vom Arbeitsspeicher der Instanz getrennt und wurde speziell für die höheren Bandbreitenanforderungen grafikintensiver Arbeitslasten entwickelt.
2Für Instanzen mit angehängten NVIDIA P4-GPUs werden lokale SSD-Laufwerke nur in den Zonen us-central1-c und northamerica-northeast1-b unterstützt.

N1+V100-GPUs

Sie können NVIDIA V100-GPUs mit den folgenden Instanzkonfigurationen an N1-Instanzen für allgemeine Zwecke anhängen.

Beschleunigertyp GPU-Anzahl GPU-Arbeitsspeicher1 (GB HBM2) vCPU Anzahl Instanzarbeitsspeicher (GB) Unterstützung lokaler SSDs2
nvidia-tesla-v100 1 16 1 bis 12 1 bis 78 Ja
2 32 1 bis 24 1 bis 156 Ja
4 64 1 bis 48 1 bis 312 Ja
8 128 1 bis 96 1 bis 624 Ja

1 GPU-Arbeitsspeicher ist der Speicher, der auf einem GPU-Gerät verfügbar ist und zum temporären Speichern von Daten verwendet werden kann. Es ist vom Arbeitsspeicher der Instanz getrennt und wurde speziell für die höheren Bandbreitenanforderungen grafikintensiver Arbeitslasten entwickelt.
2 Für Instanzen mit angehängten NVIDIA V100-GPUs werden lokale SSD-Laufwerke in us-east1-c nicht unterstützt.

N1+P100-GPUs

Sie können NVIDIA P100-GPUs mit den folgenden Instanzkonfigurationen an N1-Instanzen für allgemeine Zwecke anhängen.

Bei einigen NVIDIA P100-GPUs hängen die maximale CPU-Anzahl und der maximale Arbeitsspeicher, die für einige Konfigurationen verfügbar sind, von der Zone ab, in der die GPU-Ressource ausgeführt wird.

Beschleunigertyp GPU-Anzahl GPU-Arbeitsspeicher1 (GB HBM2) Zone vCPU Anzahl Instanzarbeitsspeicher (GB) Unterstützung lokaler SSDs
nvidia-tesla-p100 oder
nvidia-tesla-p100-vws
1 16 Alle P100-Zonen 1 bis 16 1 bis 104 Ja
2 32 Alle P100-Zonen 1 bis 32 1 bis 208 Ja
4 64 us-east1-c,
europe-west1-d,
europe-west1-b
1 bis 64 1 bis 208 Ja
Alle anderen P100-Zonen 1 bis 96 1 bis 624 Ja

1 GPU-Arbeitsspeicher ist der Speicher, der auf einem GPU-Gerät verfügbar ist und zum temporären Speichern von Daten verwendet werden kann. Es ist vom Arbeitsspeicher der Instanz getrennt und wurde speziell für die höheren Bandbreitenanforderungen grafikintensiver Arbeitslasten entwickelt.

Allgemeine Vergleichstabelle

In der folgenden Tabelle werden die GPU-Arbeitsspeichergröße, die Feature-Verfügbarkeit und die idealen Arbeitslasttypen verschiedener GPU-Modelle beschrieben, die in Compute Engine verfügbar sind.

Maschinentyp (GPU-Modell) GPU-Speicher Interconnect Unterstützung für NVIDIA RTX Virtual Workstation (vWS) Geeignete Anwendungsfälle
A4X Max (GB300) 279 GB HBM3e @ 8 TB/s NVLink Full Mesh @ 1.800 GB/s Umfangreiches verteiltes Training und Inferenz von MoE-LLMs, Empfehlungssystemen, HPC
A4X (GB200) 186 GB HBM3e @ 8 TB/s NVLink Full Mesh @ 1.800 GB/s Umfangreiches verteiltes Training und Inferenz von LLMs, Empfehlungsmodellen und HPC
A4 (B200) 180 GB HBM3e @ 8 TB/s NVLink Full Mesh @ 1.800 GB/s Umfangreiches verteiltes Training und Inferenz von LLMs, Empfehlungsmodellen und HPC
A3 Ultra (H200) 141 GB HBM3e @ 4,8 TB/s NVLink Full Mesh @ 900 GB/s Große Modelle mit riesigen Datentabellen für ML-Training, Inferenz, HPC, BERT und DLRM
A3 Mega, A3 High, A3 Edge (H100) 80 GB HBM3 @ 3,35 TB/s NVLink Full Mesh @ 900 GB/s Große Modelle mit riesigen Datentabellen für ML-Training, Inferenz, HPC, BERT und DLRM
A2 Ultra (A100 80 GB) 80 GB HBM2e @ 1,9 TB/s NVLink Full Mesh @ 600 GBps Große Modelle mit riesigen Datentabellen für ML-Training, Inferenz, HPC, BERT und DLRM
A2 Standard (A100 40 GB) 40 GB HBM2 @ 1,6 TB/s NVLink Full Mesh @ 600 GBps ML-Training, Inferenz, HPC
G4 (RTX PRO 6000) 96 GB GDDR7 mit ECC bei 1.597 GB/s ML-Inferenz, Training, Remote-Workstations zur Visualisierung, Videotranscodierung, HPC
G2 (L4) 24 GB GDDR6 bei 300 GB/s ML-Inferenz, Training, Remote-Workstations zur Visualisierung, Videotranscodierung, HPC
N1 (T4) 16 GB GDDR6 bei 320 GB/s ML-Inferenz, Training, Remote-Workstations zur Visualisierung, Videotranscodierung
N1 (P4) 8 GB GDDR5 bei 192 GB/s Remote-Workstations zur Visualisierung, ML-Inferenz und Videotranscodierung
N1 (V100) 16 GB HBM2 bei 900 GB/s NVLink Ring @ 300 GB/s ML-Training, Inferenz, HPC
N1 (P100) 16 GB HBM2 bei 732 GB/s ML-Training, Inferenz, HPC, Remote-Workstations zur Visualisierung

Informationen zum Vergleichen der GPU-Preise für die verschiedenen GPU-Modelle und -Regionen, die in Compute Engine verfügbar sind, finden Sie unter GPU-Preise.

Leistungsvergleichsdiagramm

In der folgenden Tabelle werden die Leistungsspezifikationen der verschiedenen GPU-Modelle beschrieben, die in Compute Engine verfügbar sind.

Rechenleistung

Maschinentyp (GPU-Modell) FP64 FP32 FP16 INT8
A4X Max (GB300) 1,3 TFLOPS 80 TFLOPS
A4X (GB200) 40 TFLOPS 80 TFLOPS
A4 (B200) 40 TFLOPS 80 TFLOPS
A3 Ultra (H200) 34 TFLOPS 67 TFLOPS
A3 Mega, A3 High, A3 Edge (H100) 34 TFLOPS 67 TFLOPS
A2 Ultra (A100 80 GB) 9,7 TFLOPS 19,5 TFLOPS
A2 Standard (A100 40 GB) 9,7 TFLOPS 19,5 TFLOPS
G2 (L4) 0,5 TFLOPS1 30,3 TFLOPS
N1 (T4) 0,25 TFLOPS1 8,1 TFLOPS
N1 (P4) 0,2 TFLOPS1 5,5 TFLOPS 22 TOPS2
N1 (V100) 7,8 TFLOPS 15,7 TFLOPS
N1 (P100) 4,7 TFLOPS 9,3 TFLOPS 18,7 TFLOPS

1Damit der FP64-Code ordnungsgemäß funktioniert, ist in der T4-, L4- und P4-GPU-Architektur eine geringe Anzahl von FP64-Hardwareeinheiten enthalten.
2TeraOperations pro Sekunde.

Tensor-Kernleistung

Maschinentyp (GPU-Modell) FP64 TF32 Mixed Precision FP16/FP32 INT8 INT4 FP8 FP4
A4X Max (GB300) 1,3 TFLOPS2 2.500 TFLOPS2 5.000 TFLOPS1, 2 330 TFLOPS2 155 TFLOPS2 10.000 TFLOPS2 15.000 TFLOPS2
A4X (GB200) 40 TFLOPS 2.500 TFLOPS2 5.000 TFLOPS1, 2 10.000 TFLOPS2 20.000 TFLOPS2 10.000 TFLOPS2 10.000 TFLOPS2
A4 (B200) 40 TFLOPS 1.100 TFLOPS2 4.500 TFLOPS1, 2 9.000 TFLOPS2 9.000 TFLOPS2
A3 Ultra (H200) 67 TFLOPS 989 TFLOPS2 1.979 TFLOPS1, 2 3.958 TOPS2 3.958 TFLOPS2
A3 Mega, A3 High, A3 Edge (H100) 67 TFLOPS 989 TFLOPS2 1.979 TFLOPS1, 2 3.958 TOPS2 3.958 TFLOPS2
A2 Ultra
(A100 80GB)
19,5 TFLOPS 156 TFLOPS 312 TFLOPS1 624 TOPS 1248 TOPS
A2 Standard
(A100 40GB)
19,5 TFLOPS 156 TFLOPS 312 TFLOPS1 624 TOPS 1248 TOPS
G2 (L4) 120 TFLOPS2 242 TFLOPS1, 2 485 TOPS2 485 TFLOPS2
N1 (T4) 65 TFLOPS 130 TOPS 260 TOPS
N1 (P4)
N1 (V100) 125 TFLOPS
N1 (P100)

1Für das Mixed Precision Training unterstützen NVIDIA GB300-, GB200-, B200-, H200-, H100-, A100- und L4-GPUs auch den Datentyp bfloat16.
2 NVIDIA-GPUs vom Typ GB300, GB200, B200, H200, H100 und L4 unterstützen strukturelle Sparsity. Mit struktureller dünner Besetzung können Sie die Leistung Ihrer Modelle verdoppeln. Die dokumentierten Werte gelten für die Verwendung von strukturierter Sparsity. Wenn Sie keine strukturierte Sparsity verwenden, werden die Werte halbiert.

Nächste Schritte