Betriebssystem- und Docker-Images

Google Cloud stellt Images mit gängigen Betriebssystemen, Frameworks, Bibliotheken und Treibern bereit. Google Cloud optimiert diese vorkonfigurierten Images, um Ihre Arbeitslasten im Bereich künstliche Intelligenz (KI) und maschinelles Lernen (ML) zu unterstützen.

Dieses Dokument bietet einen Überblick über die Images, die Sie zum Bereitstellen, Verwalten und Ausführen von Arbeitslasten in Ihrer AI Hypercomputer-Umgebung verwenden.

Bildkategorien

Bilder werden in die folgenden Kategorien eingeteilt:

  • KI- und ML-Frameworks und ‑Bibliotheken: Docker-Images, die mit Binärdateien für ML-Frameworks und ‑Bibliotheken vorkonfiguriert sind, um die Erstellung, das Training und die Verwendung von ML-Modellen zu vereinfachen. Auf AI Hypercomputer können Sie DLSL-Docker-Images (Deep Learning Software Layer) verwenden, um ML-Modelle wie NeMO und MaxText in einem Google Kubernetes Engine-Cluster (GKE) auszuführen.
  • Clusterbereitstellung und ‑orchestrierung: Betriebssystemimages, die Sie zum Bereitstellen und Verwalten der leistungsoptimierten Infrastruktur verwenden, auf der Ihre KI-Arbeitslasten ausgeführt werden. Sie können Ihre KI-Arbeitslasten in GKE-Clustern, Slurm-Clustern oder Compute Engine-Instanzen bereitstellen. Weitere Informationen finden Sie unter VM- und Clustererstellung – Übersicht. Die folgenden Betriebssystem-Images sind für die Bereitstellung von Clustern oder Instanzen verfügbar:

KI- und ML-Frameworks und ‑Bibliotheken

Google Cloud bietet Docker-Images, in denen beliebte KI- und ML-Frameworks und ‑Bibliotheken enthalten sind. Diese Images enthalten die Software, die erforderlich ist, um die Entwicklung, das Training und die Bereitstellung von Modellen in Ihren KI-optimierten Clustern, die auf AI Hypercomputer ausgeführt werden, zu vereinfachen.

JAX AI-Images

Die JAX AI-Images (JAII, früher als JAX Stable Stack Images bezeichnet) fürGoogle Cloud TPUs und GPUs bieten sofort einsatzbereite Docker-Images, die das JAX-Framework, eine kuratierte Sammlung kompatibler Bibliotheken und Einstellungen für die Google Cloud Infrastruktur enthalten. JAX AI TPU-Images sind mit JAX-Bibliotheken und TPU-Bibliotheken vorkonfiguriert. JAX AI-GPU-Images sind mit JAX-Bibliotheken und relevanten CUDA-/NVIDIA-Bibliotheken vorkonfiguriert.

Diagramm des JAX AI-Bilds

Hardwareebene

JAX AI-Images befinden sich über der Hardwareschicht, die aus den Beschleunigern (TPU oder GPU) und den zugehörigen VMs besteht. Wenn Sie ein JAX AI-Image verwenden möchten, müssen Sie TPU- oder GPU-VMs bereitstellen. Sie können dazu die TPU API, die Compute Engine API oder die GKE API verwenden.

Framework-Ebene

Die Framework-Ebene bietet Tools und Bibliotheken zum Erstellen von ML-Arbeitslasten. JAX AI-Images bieten eine vorkonfigurierte Basis für JAX-basierte ML-Arbeitslasten, einschließlich der JAX-Kernbibliothek und anderer wichtiger Abhängigkeiten, um eine konsistente und leistungsstarke Entwicklung zu ermöglichen.

Die LibTPU-Ebene im JAX AI-Image wird speziell für die jeweilige JAX-Version erstellt und mit ihr gebündelt. Die Verwendung einer anderen JAX-Version kann zu unerwartetem Verhalten oder Fehlern führen.

Die CUDA-Ebene im JAX AI-Image enthält von NVIDIA verwaltete Komponenten wie das NGC CUDA Deep Learning-Image, das als Basis-Image des GPU-Trainings-Image verwendet wird. Das GPU-Image enthält auch Transformer Engine, eine benutzerdefinierte NVIDIA-Bibliothek zum Beschleunigen von Transformer-Modellen auf NVIDIA-GPUs.

Für Ihre spezifische ML-Arbeitslast sind möglicherweise zusätzliche anwendungsspezifische Pakete erforderlich, die über die im JAX AI-Image bereitgestellten Pakete hinausgehen.

Bibliotheken in JAX AI-Images:

TPU-Images

Funktionen Paketname
Kernbibliotheken oder ‑komponenten
ML-Framework JAX und JAX-Bibliothek
LibTPU Stabile Cloud LibTPU-Version
Ebenen-/Modellbibliothek Flax
Prüfpunkte Orbax
Quantisierung Qwix
Optimierungstools Optax

aqtp

Benutzerdefinierte Kernels Tokamax
Konfiguration Fiddle
Eingabepipeline tf.data

PyGrain array-record

Profilerstellung, Fehlerbehebung TensorBoard
Utils Häufig verwendete Loop-Dienstprogramme

ML-Goodput-Messung ML-Sammlungen

Cloud-spezifische Tools
Google Cloud

Google Cloud SDK Google Cloud storage

Diagnose

Cloud Accelerator Diagnostics Cloud TPU Diagnostics

GPU-Images

Funktionen Paketname
Kernbibliotheken oder ‑komponenten
ML-Framework JAX und JAX-Bibliothek
NVIDIA CUDA-Bibliotheken CUDA DL Image
Ebenen-/Modellbibliothek Flax
Prüfpunkte Orbax
Optimierungstools

Optax aqtp TransformerEngine

Konfiguration Fiddle
Eingabepipeline

tf.data PyGrain array-record

Profilerstellung, Fehlerbehebung TensorBoard
Utils

Häufig verwendete Schleifen-Utils ML-Goodput-Messung ML-Sammlungen

Cloud-spezifische Tools
Google Cloud

Google Cloud SDK Google Cloud storage

Diagnose Cloud Accelerator-Diagnosetool

Aktuelle JAX AI-Images

Anwendungsebene

Sie implementieren Ihre spezifischen ML-Arbeitslasten auf der Anwendungsebene, die sich über der Framework-Ebene befindet. Die Anwendungsschicht enthält Ihren anwendungsspezifischen Code, Ihre Modelle und Ihre Logik, die alle mit den Tools und Bibliotheken der Framework-Schicht erstellt wurden.

Dieses Image bietet zwar eine robuste und gut getestete Grundlage für JAX-basierte KI-Arbeitslasten, Sie müssen jedoch möglicherweise anwendungsspezifische Abhängigkeiten hinzufügen. Wir empfehlen, dabei so vorzugehen, dass die voreingestellte Basisebene, die JAX und seine wichtigsten Abhängigkeiten enthält, so wenig wie möglich beeinträchtigt wird. Wenn Sie Abhängigkeiten auf Anwendungsebene einführen, die die vorhandenen Abhängigkeiten überschreiben oder mit ihnen in Konflikt stehen, kann dies zu Nebenwirkungen führen, z. B.:

  • Unerwartetes Verhalten: Ihre ML-Arbeitslasten verhalten sich möglicherweise anders als vor dem Hinzufügen zusätzlicher Abhängigkeiten zum JAX AI-Image.
  • Leistungsbeeinträchtigungen: Das Überschreiben optimierter JAX-bezogener Bibliotheken kann sich negativ auf die Leistungsvorteile auswirken, die durch das JAX AI-Image geboten werden.
  • Stabilitätsprobleme: Konflikte zwischen den hinzugefügten Abhängigkeiten und den JAX-Kernabhängigkeiten können zu Instabilität und Laufzeitfehlern in Ihrer Anwendung führen.

Release-Rhythmus

JAX AI-Images werden anfangs vierteljährlich bereitgestellt. Das kurzfristige Ziel ist ein synchronisierter Release-Zeitplan mit jedem JAX-Release. So können Sie von den neuesten Funktionen und Verbesserungen profitieren, sobald sie verfügbar sind.

Support

Jede JAX AI-Image-Version unterliegt einem Support-Lebenszyklus mit begrenzter Dauer. Innerhalb dieses Zeitrahmens bearbeiten wir bestimmte Kategorien von Anfragen zur Änderung vorhandener JAX AI-Bilder:

  • Sicherheitslücken: Wir priorisieren die Behebung von Sicherheitslücken, die in den Basis-Images oder Abhängigkeiten von JAX Stable Stack-Docker-Images entdeckt werden. Aktualisierte Images werden veröffentlicht, um potenzielle Risiken zu minimieren.
  • Nicht abwärtskompatible Änderungen: Bei erheblichen nicht abwärtskompatiblen Änderungen in den zugrunde liegenden Bibliotheken oder Frameworks, die von JAX AI Image verwendet werden, bewertet und implementiert Google Cloudnotwendige Updates, um die Kompatibilität aufrechtzuerhalten. Dazu müssen Sie möglicherweise Docker-Images mit aktualisierten Abhängigkeiten neu erstellen.

Wenn in einer Bibliothek innerhalb einer JAII eine Sicherheitslücke oder ein Fehler entdeckt wird, wird die aktualisierte Bibliothek in die JAII aufgenommen und alle anderen Bibliotheksversionen werden angepinnt, um die allgemeine Stabilität zu gewährleisten. Dadurch wird eine neue JAII-Version erstellt.

Minimale Änderung für Überarbeitungen:

Wenn in Paket „X“ in JAX-0.4.30-rev1 ein Fehler gefunden wird, aktualisieren wir „X“ auf die nächste Version (z. B. v2.0) und versuchen, alle anderen Pakete unverändert zu lassen. Dies führt zu einer neuen Überarbeitung: JAX-0.4.30-rev2, die so schnell wie möglich veröffentlicht wird.

Docker-Images für die Deep Learning Software Layer (DLSL)

Diese Images enthalten NVIDIA CUDA, NCCL, ein ML-Framework und ein Modell. Sie bieten eine sofort einsatzbereite Umgebung für Deep-Learning-Arbeitslasten. Diese vorgefertigten DLSL-Docker-Images funktionieren nahtlos mit Ihren GKE-Clustern, da wir sie bei internen Reproduzierbarkeits- und Regressionstests testen und überprüfen.

DLSL-Docker-Images bieten folgende Vorteile:

  • Vorkonfigurierte Software: DLSL-Docker-Images bilden die Einrichtung nach, die für interne Reproduzierbarkeits- und Regressionstests verwendet wird. Diese Images bieten eine vorkonfigurierte, getestete und optimierte Umgebung, was bei der Installation und Konfiguration viel Zeit und Aufwand spart.
  • Versionsverwaltung: DLSL-Docker-Images werden häufig aktualisiert. Diese Versionsupdates enthalten die aktuelle stabile Version von Frameworks und Treibern und beheben auch Sicherheitspatches.
  • Infrastrukturkompatibilität: DLSL-Docker-Images werden so erstellt und getestet, dass sie nahtlos mit den GPU-Maschinentypen funktionieren, die auf AI Hypercomputer verfügbar sind.
  • Kurzanleitung: Für einige DLSL-Docker-Images gibt es Beispielrezepte, die zeigen, wie Sie Ihre Arbeitslasten starten, die die vorkonfigurierten Images verwenden.

NeMo + PyTorch + NCCL-gIB-Plug-in

Diese Docker-Images basieren auf dem NVIDIA NeMo NGC-Image. Sie enthalten das NCCL gIB-Plug-in von Google und bündeln alle NCCL-Binärdateien, die zum Ausführen von Arbeitslasten auf jeder unterstützten Beschleuniger-VM erforderlich sind. Diese Images enthalten auch Google Cloud-Tools wie gcsfuse und die gcloud CLI zum Bereitstellen von Arbeitslasten in Google Kubernetes Engine.

DLSL-Bildversion Version der Abhängigkeiten Maschinenserie Releasedatum Enddatum des Supports DLSL-Bildname
nemo25.04-gib1.0.6-A4
  • NeMo NGC:25.04.01
  • NCCL giB plugin: 1.0.6
A4 3. Juli 2025 3. Juli 2026 us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo25.04-gib1.0.6-A4
nemo25.04-gib1.0.6-A3U
  • NeMo NGC:25.04.01
  • NCCL giB plugin: 1.0.6
A3 Ultra 3. Juli 2025 3. Juli 2026 us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo25.04-gib1.0.6-A3U
nemo25.02-gib1.0.5-A4
  • NeMo NGC:25.02
  • NCCL giB plugin: 1.0.5
A4 14. März 2025 14. März 2026 us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo25.02-gib1.0.5-A4
nemo24.07-gib1.0.2-A3U
  • NeMo NGC:24.07
  • NCCL giB plugin: 1.0.2
A3 Ultra 2. Februar 2025 2. Februar 2026 us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo24.07-gib1.0.2-A3U
nemo24.07-gib1.0.3-A3U
  • NeMo NGC:24.07
  • NCCL giB plugin: 1.0.3
A3 Ultra 2. Februar 2025 2. Februar 2026 us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo24.07-gib1.0.3-A3U
nemo24.12-gib1.0.3-A3U
  • NeMo NGC:24.12
  • NCCL giB plugin: 1.0.3
A3 Ultra 7. Februar 2025 7. Februar 2026 us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo24.12-gib1.0.3-A3U
nemo24.07-tcpx1.0.5-A3Mega
  • NeMo NGC:24.07
  • GPUDirect-TCPX: 1.0.5
A3 Mega 12. März 2025 12. März 2026 us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo24.07-tcpx1.0.5-A3Mega
nemo24.07-tcpx1.0.5-A3High
  • NeMo NGC:24.07
  • GPUDirect-TCPX: 1.0.5
A3 High (8 GPUs) 12. März 2025 12. März 2026 us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo-nccl:nemo24.07-tcpx1.0.5-A3High

NeMo + PyTorch

Dieses Docker-Image basiert auf dem NVIDIA NeMo NGC-Image und enthält Google Cloud -Tools wie gcsfuse und die gcloud CLI zum Bereitstellen von Arbeitslasten in Google Kubernetes Engine.

DLSL-Bildversion Version der Abhängigkeiten Maschinenserie Releasedatum Enddatum des Supports DLSL-Bildname
nemo24.07--A3U NeMo NGC:24.07 A3 Ultra 19. Dezember 2024 19. Dezember 2025 us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo:nemo24.07-A3U
nemo24.07-tcpx1.0.5-A3Mega
  • NeMo NGC:24.07
  • GPUDirect-TCPX: 1.0.5
A3 Mega 12. März 2025 12. März 2026 us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo:nemo24.07-tcpx1.0.5-A3Mega
nemo24.07-tcpx1.0.5-A3High
  • NeMo NGC:24.07
  • GPUDirect-TCPX: 1.0.5
A3 High (8 GPUs) 12. März 2025 12. März 2026 us-central1-docker.pkg.dev/deeplearning-images/reproducibility/pytorch-gpu-nemo:nemo24.07-tcpx1.0.5-A3High

MaxText + JAX-Toolbox

Dieses Docker-Image basiert auf dem NVIDIA JAX-Toolbox-Image und enthältGoogle Cloud -Tools wie gcsfuse und die gcloud CLI zum Bereitstellen von Arbeitslasten in Google Kubernetes Engine.

DLSL-Bildversion Version der Abhängigkeiten Maschinenserie Releasedatum Enddatum des Supports DLSL-Bildname
toolbox-maxtext-2025-01-10-A3U JAX toolbox: maxtext-2025-01-10 A3 Ultra 11. März 2025 11. März 2026 us-central1-docker.pkg.dev/deeplearning-images/reproducibility/jax-maxtext-gpu:toolbox-maxtext-2025-01-10-A3U
jax0.5.1-cu12-A3Mega
  • JAX: 0.5.1
  • CUDA: 12.x
  • MaxText: Latest
A3 Mega 17. März 2025 17. März 2026 us-central1-docker.pkg.dev/deeplearning-images/reproducibility/jax-gpu-maxtext:jax0.5.1-cu12-A3Mega
jax0.5.1-cu12-A3High
  • JAX: 0.5.1
  • CUDA: 12.x
  • MaxText: Latest
A3 High (8 GPUs) 17. März 2025 17. März 2026 us-central1-docker.pkg.dev/deeplearning-images/reproducibility/jax-gpu-maxtext:jax0.5.1-cu12-A3High

MaxText + JAX Stable Stack

Dieses Docker-Image basiert auf dem JAX Stable Stack und MaxText. Dieses Image enthält auch Abhängigkeiten wie dnsutils für die Ausführung von Arbeitslasten in Google Kubernetes Engine.

DLSL-Bildversion Version der Abhängigkeiten Maschinenserie Releasedatum Enddatum des Supports DLSL-Bildname
jax-maxtext-gpu:jax0.5.1-cuda_dl25.02-rev1-maxtext-20150317
  • JAX Stable stacks:jax0.5.1-cuda_dl25.02-rev1
  • maxtext-Commit: 54e98c9e62caa426cf5902be068533ddb4fb79f5
A4 17. März 2025 17. März 2026 us-central1-docker.pkg.dev/deeplearning-images/reproducibility/jax-maxtext-gpu:jax0.5.1-cuda_dl25.02-rev1-maxtext-20150317

Clusterbereitstellung und ‑orchestrierung

Betriebssystem-Images enthalten alle erforderlichen Softwarekomponenten zum Bereitstellen eines Betriebssystems auf einer Compute-Instanz oder einem GKE-Knoten. Das Betriebssystem verwaltet zugrunde liegende Hardwareressourcen wie Beschleuniger und Netzwerke. Dadurch werden die Rechenressourcen für Ihre KI-Arbeitslast bereitgestellt.

GKE-Knoten-Images

GKE stellt Cluster mit Knoten-Images bereit. Diese Knoten-Images sind für verschiedene Betriebssysteme wie Container-Optimized OS, Ubuntu und Windows Server verfügbar. Die Knoten-Images von Container-Optimized OS mit containerd (cos_containerd), die Sie zum Bereitstellen von GKE Autopilot-Clustern benötigen, enthalten Optimierungen zur Unterstützung Ihrer KI- und ML-Arbeitslasten.

Weitere Informationen zu diesen Knoten-Images finden Sie unter Knoten-Images.

Slurm-Betriebssystem-Images

In Slurm-Clustern werden Rechen- und Controllknoten als Compute-Instanzen in Compute Engine bereitgestellt.

Zum Bereitstellen von KI-optimierten Slurm-Clustern müssen Sie das Cluster Toolkit verwenden. Bei der Bereitstellung des Slurm-Clusters wird mit dem Cluster-Blueprint automatisch ein benutzerdefiniertes Betriebssystem-Image erstellt, mit dem die erforderliche Systemsoftware für die Cluster- und Arbeitslastverwaltung auf den Slurm-Knoten installiert wird. Sie können die Standard-Blueprints ändern, bevor Sie sie bereitstellen, um die Software anzupassen, die in Ihren Images enthalten ist.

Im folgenden Abschnitt wird die Software zusammengefasst, die mit dem Cluster-Blueprint auf Ihren A4-, A3 Ultra-, A3 Mega- und A3 High-Slurm-Knoten (8 GPUs) installiert wird. Cluster-Blueprints basieren auf den Ubuntu LTS Accelerator-Betriebssystem-Images.

A4

Der auf GitHub verfügbare A4-Blueprint enthält standardmäßig die folgende Software:

  • Ubuntu 22.04 LTS
  • Slurm: Version 24.11.2
  • Die folgenden Slurm-Abhängigkeiten:
    • munge
    • mariadb
    • libjwt
    • lmod
  • Open MPI: die aktuelle Version von 4.1.x
  • PMIx: Version 4.2.9
  • NFS-Client und ‑Server
  • NVIDIA-Treiber der 570er-Serie
  • NVIDIA-Enroot-Container-Laufzeit: Version 3.5.0 mit Bugfix nach der Veröffentlichung
  • NVIDIA pyxis
  • Die folgenden NVIDIA-Tools:
    • Data Center GPU Manager (dcgmi)
    • nvidia-utils-570
    • nvidia-container-toolkit
    • libnvidia-nscq-570
  • CUDA Toolkit: Version 12.8
  • Infiniband-Unterstützung, einschließlich ibverbs-utils
  • Ops-Agent
  • Cloud Storage FUSE

A3 Ultra

Der A3 Ultra-Blueprint, der auf GitHub verfügbar ist, enthält standardmäßig die folgende Software:

  • Ubuntu 22.04 LTS
  • Slurm: Version 24.11.2
  • Die folgenden Slurm-Abhängigkeiten:
    • munge
    • mariadb
    • libjwt
    • lmod
  • Open MPI: die aktuelle Version von 4.1.x
  • PMIx: Version 4.2.9
  • NFS-Client und ‑Server
  • NVIDIA-Treiber der 570er-Serie
  • NVIDIA-Enroot-Container-Laufzeit: Version 3.5.0 mit Bugfix nach der Veröffentlichung
  • NVIDIA pyxis
  • Die folgenden NVIDIA-Tools:
    • Data Center GPU Manager (dcgmi)
    • libnvidia-cfg1-570-server
    • libnvidia-nscq-570
    • nvidia-compute-utils-570-server
    • nsight-compute
    • nsight-systems
  • CUDA Toolkit: Version 12.8
  • Infiniband-Unterstützung, einschließlich ibverbs-utils
  • Ops-Agent
  • Cloud Storage FUSE

A3 Mega

Der A3 Mega-Blueprint, der auf GitHub verfügbar ist, enthält standardmäßig die folgende Software:

  • Ubuntu 22.04 LTS
  • Slurm: Version 24.11.2
  • Die folgenden Slurm-Abhängigkeiten:
    • munge
    • mariadb
    • libjwt
    • lmod
  • Open MPI: die aktuelle Version von 4.1.x
  • PMIx: Version 4.2.9
  • NFS-Client und ‑Server
  • NVIDIA-Treiber der 550er-Serie
  • NVIDIA-Enroot-Container-Laufzeit: Version 3.4.1
  • NVIDIA pyxis
  • Die folgenden NVIDIA-Tools:
    • Data Center GPU Manager (dcgmi)
    • libnvidia-cfg1-550-server
    • libnvidia-nscq-550
    • nvidia-compute-utils-550-server
    • nsight-compute
    • nsight-systems
  • CUDA Toolkit: Version 12.4
  • Infiniband-Unterstützung, einschließlich ibverbs-utils
  • TCPXO für A3 Mega: Spezielles Installationsprogramm für NCCL TCPXO und den 1,6 Tbps-Netzwerkstack
  • Ops-Agent
  • Cloud Storage FUSE

A3 High

Der auf GitHub verfügbare Blueprint für A3 High (8 GPUs) enthält standardmäßig die folgende Software:

  • Ubuntu 22.04 LTS
  • Slurm: Version 24.11.2
  • Die folgenden Slurm-Abhängigkeiten:
    • munge
    • mariadb
    • libjwt
    • lmod
  • Open MPI: die aktuelle Version von 4.1.x
  • PMIx: Version 4.2.9
  • NFS-Client und ‑Server
  • NVIDIA-Treiber der Serien 535 oder 550
  • NVIDIA-Enroot-Container-Laufzeit: Version 3.4.1
  • NVIDIA pyxis
  • Die folgenden NVIDIA-Tools:
    • Data Center GPU Manager (dcgmi)
    • libnvidia-cfg1-535/550-server
    • libnvidia-nscq-535/550
    • nvidia-compute-utils-535/550-server
    • nsight-compute
    • nsight-systems
  • CUDA Toolkit: Version 12.2 oder 12.4
  • Infiniband-Unterstützung, einschließlich ibverbs-utils
  • TCPX für A3 High (8 GPUs): Spezielles Installationsprogramm für NCCL TCPX (GPUDirect-TCPX) und den 800‑Gbit/s-Netzwerk-Stack (4 NICs)
  • Ops-Agent
  • Cloud Storage FUSE

Betriebssystem-Images für Beschleuniger

Mit AI Hypercomputer können Sie einzelne Compute-Instanzen oder Gruppen von Compute-Instanzen bereitstellen. Wenn Sie diese Instanzen erstellen möchten, müssen Sie beim Erstellen der Instanz ein Betriebssystem-Image angeben.

Google Cloud bietet eine Reihe von Betriebssystem-Images für die Instanzerstellung. Google Cloud bietet außerdem eine spezielle Reihe von Betriebssystem-Images für Beschleuniger für KI-optimierte Instanzen. Diese Betriebssystem-Images enthalten die wichtigsten Treiber für GPU- und Netzwerkfunktionen, z. B. NVIDIA-Treiber, Mellanox-Treiber und ihre Abhängigkeiten.

Weitere Informationen zu den einzelnen Betriebssystemen finden Sie in der Compute Engine-Dokumentation auf der Seite Details zu Betriebssystemen.

Beschleuniger-Betriebssystem-Images sind für die Betriebssysteme Rocky Linux und Ubuntu LTS verfügbar.

Rocky Linux-Beschleuniger

Die folgenden Rocky Linux-Beschleuniger-Betriebssystem-Images sind für jede Maschinenserie verfügbar:

Betriebssystemversion Image-Familie Architektur Maschinenserie Image-Projekt
Rocky Linux 9-Beschleuniger rocky-linux-9-optimized-gcp-nvidia-580-arm64 Arm A4X Max, A4X rocky-linux-accelerator-cloud
rocky-linux-9-optimized-gcp-nvidia-580 x86 A4, A3 Ultra, A3 Mega, A3 High (8 GPUs) rocky-linux-accelerator-cloud
rocky-linux-9-optimized-gcp-nvidia-570-arm64 Arm A4X rocky-linux-accelerator-cloud
rocky-linux-9-optimized-gcp-nvidia-570 x86 A4, A3 Ultra, A3 Mega, A3 High (8 GPUs) rocky-linux-accelerator-cloud
Rocky Linux 8-Beschleuniger rocky-linux-8-optimized-gcp-nvidia-580-arm64 Arm A4X Max, A4X rocky-linux-accelerator-cloud
rocky-linux-8-optimized-gcp-nvidia-580 x86 A4, A3 Ultra, A3 Mega, A3 High (8 GPUs) rocky-linux-accelerator-cloud
rocky-linux-8-optimized-gcp-nvidia-570 x86 A4, A3 Ultra, A3 Mega, A3 High (8 GPUs) rocky-linux-accelerator-cloud

Ubuntu LTS-Beschleuniger

Die folgenden Ubuntu LTS-Beschleuniger-Betriebssystem-Images sind für jede Maschinenserie verfügbar:

Betriebssystemversion Image-Familie Architektur Maschinenserie Image-Projekt
Ubuntu 24.04 LTS-Beschleuniger ubuntu-accelerator-2404-arm64-with-nvidia-580 Arm A4X Max, A4X ubuntu-os-accelerator-images
ubuntu-accelerator-2404-amd64-with-nvidia-580 x86 A4, A3 Ultra, A3 Mega, A3 High (8 GPUs) ubuntu-os-accelerator-images
ubuntu-accelerator-2404-arm64-with-nvidia-570 Arm A4X ubuntu-os-accelerator-images
ubuntu-accelerator-2404-amd64-with-nvidia-570 x86 A4, A3 Ultra, A3 Mega, A3 High (8 GPUs) ubuntu-os-accelerator-images
Ubuntu 22.04 LTS-Beschleuniger ubuntu-accelerator-2204-arm64-with-nvidia-580 Arm A4X Max, A4X ubuntu-os-accelerator-images
ubuntu-accelerator-2204-amd64-with-nvidia-580 x86 A4, A3 Ultra, A3 Mega, A3 High (8 GPUs) ubuntu-os-accelerator-images
ubuntu-accelerator-2204-arm64-with-nvidia-570 Arm A4X ubuntu-os-accelerator-images
ubuntu-accelerator-2204-amd64-with-nvidia-570 x86 A4, A3 Ultra, A3 Mega, A3 High (8 GPUs) ubuntu-os-accelerator-images

Nächste Schritte