Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Types de machines avec GPU

Ce document décrit les séries de machines GPU compatibles avec AI Hypercomputer. Vous pouvez créer des instances et des clusters Compute Engine qui utilisent ces séries de machines pour exécuter vos charges de travail d'intelligence artificielle (IA), de machine learning (ML) et de calcul hautes performances (HPC).

Pour utiliser des GPU sur AI Hypercomputer, vous pouvez utiliser la plupart des séries de machines de la famille de machines optimisées pour les accélérateurs. Chaque série de machines de la famille de machines optimisées pour les accélérateurs utilise un modèle de GPU spécifique. Pour en savoir plus sur la famille de machines optimisée pour les accélérateurs, consultez Famille de machines optimisée pour les accélérateurs.

La section suivante décrit les séries de machines optimisées pour les accélérateurs compatibles avec AI Hypercomputer.

Série A4X Max et A4X

Cette section décrit les configurations disponibles pour les séries de machines A4X Max et A4X. Pour en savoir plus sur ces séries de machines, consultez Séries de machines A4X et A4X Max optimisées pour les accélérateurs dans la documentation Compute Engine.

A4X Max (Bare Metal)

Les types de machines A4X Max utilisent des superchips NVIDIA GB300 Grace Blackwell Ultra (nvidia-gb300) et sont idéaux pour l'entraînement et la mise en service de modèles de fondation. Les types de machines A4X Max sont disponibles en tant qu'instances Bare Metal.

A4X Max est une plate-forme exaflopique basée sur NVIDIA GB300 NVL72. Chaque machine dispose de deux sockets avec des processeurs NVIDIA Grace dotés de cœurs Arm Neoverse V2. Ces processeurs sont connectés à quatre GPU NVIDIA B300 Blackwell avec une communication puce à puce (NVLink-C2C) rapide.

						Superchips NVIDIA GB300 Grace Blackwell Ultra associés
Type de machine	Nombre de vCPU¹	Mémoire de l'instance (Go)	SSD local associé (Gio)	Nombre de cartes d'interface réseau physiques	Bande passante réseau maximale (Gbit/s)²	Nombre de GPU	Mémoire de GPU³ (GB HBM3e)
`a4x-maxgpu-4g-metal`	144	960	12 000	6	3 600	4	1 116

¹ Un vCPU est mis en œuvre sous la forme d'une technologie hyper-threading matérielle unique sur l'une des plates-formes de processeur disponibles.
² La bande passante de sortie maximale ne peut pas dépasser le nombre donné. La bande passante de sortie réelle dépend de l'adresse IP de destination et d'autres facteurs. Pour en savoir plus sur la bande passante réseau, consultez Bande passante réseau.
³ La mémoire de GPU est la mémoire disponible sur un GPU pouvant être utilisée pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail exigeantes en ressources graphiques.

A4X

Les types de machines A4X utilisent des superchips NVIDIA GB200 Grace Blackwell (nvidia-gb200) et sont idéaux pour l'entraînement et la mise en service de modèles de fondation.

A4X est une plate-forme exaflopique basée sur NVIDIA GB200 NVL72. Chaque machine dispose de deux sockets avec des processeurs NVIDIA Grace dotés de cœurs Arm Neoverse V2. Ces processeurs sont connectés à quatre GPU NVIDIA B200 Blackwell avec une communication puce à puce (NVLink-C2C) rapide.

						Superchips NVIDIA GB200 Grace Blackwell associés
Type de machine	Nombre de vCPU¹	Mémoire de l'instance (Go)	SSD local associé (Gio)	Nombre de cartes d'interface réseau physiques	Bande passante réseau maximale (Gbit/s)²	Nombre de GPU	Mémoire de GPU³ (GB HBM3e)
`a4x-highgpu-4g`	140	884	12 000	6	2 000	4	744

Série A4

Cette section décrit les configurations disponibles pour la série de machines A4. Pour en savoir plus sur cette série de machines, consultez Série de machines A4 optimisée pour les accélérateurs dans la documentation Compute Engine.

A4

Les types de machines A4 sont associés à des GPU NVIDIA B200 Blackwell (nvidia-b200). Ils sont idéaux pour l'entraînement et la mise en service de modèles de fondation.

						GPU NVIDIA B200 Blackwell associés
Type de machine	Nombre de vCPU¹	Mémoire de l'instance (Go)	SSD local associé (Gio)	Nombre de cartes d'interface réseau physiques	Bande passante réseau maximale (Gbit/s)²	Nombre de GPU	Mémoire de GPU³ (GB HBM3e)
`a4-highgpu-8g`	224	3 968	12 000	10	3 600	8	1 440

Série A3

Cette section décrit les configurations disponibles pour la série de machines A3. Pour en savoir plus sur cette série de machines, consultez Série de machines A3 optimisée pour les accélérateurs dans la documentation Compute Engine.

A3 Ultra

Les types de machines A3 Ultra sont associés à des GPU NVIDIA H200 SXM (nvidia-h200-141gb) et offrent les meilleures performances réseau de la série A3. Les types de machines A3 Ultra sont idéaux pour l'entraînement et la mise en service de modèles de fondation.

						GPU NVIDIA H200 associés
Type de machine	Nombre de vCPU¹	Mémoire de l'instance (Go)	SSD local associé (Gio)	Nombre de cartes d'interface réseau physiques	Bande passante réseau maximale (Gbit/s)²	Nombre de GPU	Mémoire de GPU³ (GB HBM3e)
`a3-ultragpu-8g`	224	2 952	12 000	10	3 600	8	1128

A3 Mega

Les types de machines A3 Mega sont associés à des GPU NVIDIA H100 SXM et sont idéaux pour l'entraînement de grands modèles et l'inférence multihôte.

Remarque : Lorsque vous provisionnez des types de machines a3-megagpu-8g, nous vous recommandons d'utiliser un cluster de ces instances et de le déployer avec un programmeur tel que Google Kubernetes Engine (GKE) ou Slurm. Pour obtenir des instructions détaillées sur ces deux options, consultez les références suivantes :

Pour créer un cluster Google Kubernetes Engine, consultez Déployer un cluster A3 Mega avec GKE.
Pour créer un cluster Slurm, consultez Déployer un cluster Slurm A3 Mega.

						GPU NVIDIA H100 associés
Type de machine	Nombre de vCPU¹	Mémoire de l'instance (Go)	SSD local associé (Gio)	Nombre de cartes d'interface réseau physiques	Bande passante réseau maximale (Gbit/s)²	Nombre de GPU	Mémoire GPU³ (GB HBM3)
`a3-megagpu-8g`	208	1 872	6 000	9	1 800	8	640

A3 High

Les types de machines A3 High sont associés à des GPU NVIDIA H100 SXM et conviennent aussi bien à l'inférence de grands modèles qu'à leur affinement.

Remarque : Lorsque vous provisionnez des types de machines a3-highgpu-1g, a3-highgpu-2g ou a3-highgpu-4g, vous devez créer des instances à l'aide de VM Spot ou de VM à démarrage flexible. Pour obtenir des instructions détaillées sur ces options, consultez les références suivantes :

Pour créer des VM Spot, définissez le modèle de provisionnement sur SPOT lorsque vous créez une VM optimisée pour les accélérateurs.
Pour créer des VM à démarrage flexible, vous pouvez utiliser l'une des méthodes suivantes :
- Créez une VM autonome et définissez le modèle de provisionnement sur FLEX_START lorsque vous créez une VM optimisée pour les accélérateurs.
- Créez une demande de redimensionnement dans un groupe d'instances géré (MIG). Pour obtenir des instructions, consultez Créer un MIG comprenant des VM avec GPU.

						GPU NVIDIA H100 associés
Type de machine	Nombre de vCPU¹	Mémoire de l'instance (Go)	SSD local associé (Gio)	Nombre de cartes d'interface réseau physiques	Bande passante réseau maximale (Gbit/s)²	Nombre de GPU	Mémoire GPU³ (GB HBM3)
`a3-highgpu-1g`	26	234	750	1	25	1	80
`a3-highgpu-2g`	52	468	1 500	1	50	2	160
`a3-highgpu-4g`	104	936	3 000	1	100	4	320
`a3-highgpu-8g`	208	1 872	6 000	5	1 000	8	640

A3 Edge

Les types de machines A3 Edge sont dotés de GPU NVIDIA H100 SXM et sont conçus spécifiquement pour la mise en service. Ils sont disponibles dans un ensemble limité de régions.

						GPU NVIDIA H100 associés
Type de machine	Nombre de vCPU¹	Mémoire de l'instance (Go)	SSD local associé (Gio)	Nombre de cartes d'interface réseau physiques	Bande passante réseau maximale (Gbit/s)²	Nombre de GPU	Mémoire GPU³ (GB HBM3)
`a3-edgegpu-8g`	208	1 872	6 000	5	600 : pour asia-south1 et northamerica-northeast2 400 : pour toutes les autres régions A3 Edge	8	640

Étapes suivantes

Pour en savoir plus sur les GPU, consultez les pages suivantes de la documentation Compute Engine :
- En savoir plus sur les GPU sur Compute Engine
- Vérifiez la disponibilité des régions et des zones GPU.
- Consultez les tarifs des GPU.
Découvrez les services de mise en réseau et les services de stockage pour AI Hypercomputer.