Ce document présente les étapes requises pour créer une instance Compute Engine à laquelle sont associés des processeurs graphiques (GPU). Vous pouvez utiliser des GPU pour accélérer des charges de travail spécifiques, telles que le machine learning et le traitement des données.
Vous pouvez également utiliser certains types de machines GPU sur AI Hypercomputer. AI Hypercomputer est un système de supercalcul optimisé pour gérer vos charges de travail d'intelligence artificielle (IA) et de machine learning (ML). Cette option est recommandée pour créer une infrastructure à allocation dense et optimisée pour les performances, qui intègre les planificateurs Google Kubernetes Engine (GKE) et Slurm.
Pour en savoir plus sur les GPU sur Compute Engine, consultez À propos des GPU.
Sélectionner le modèle de GPU
Pour obtenir la liste des modèles de GPU disponibles, consultez Plates-formes GPU. Notez également le type de machine compatible avec le modèle de GPU sélectionné.
Il peut également être utile de passer en revue les éléments suivants pour chaque modèle :
- Les régions et zones disponibles.
- Les tarifs des GPU pour comprendre le coût d'utilisation de chaque modèle de GPU sur vos instances. Pour les instances qui utilisent des machines optimisées pour les accélérateurs, consultez également les tarifs des instances de VM.
Limites
Outre les restrictions applicables à toutes les instances avec GPU, chaque série de machines avec des GPU associés présente les limites suivantes :
Instances A4X
- Seules les options de consommation prises en charge pour un type de machine A4X peuvent être utilisées pour demander de la capacité.
- Vous ne bénéficiez ni de remises automatiques proportionnelles à une utilisation soutenue ni de remises sur engagement d'utilisation flexible pour les instances qui utilisent un type de machine A4X.
- Vous ne pouvez utiliser un type de machine A4X que dans certaines régions et zones.
- Vous ne pouvez pas utiliser de disque persistant (régional ou zonal) sur une instance qui utilise un type de machine A4X.
- Le type de machine A4X n'est disponible que sur la plate-forme NVIDIA Grace.
- Vous ne pouvez pas modifier le type de machine d'une instance existante en type de machine A4X. Vous pouvez uniquement créer de nouvelles instances A4X. Une fois que vous avez créé une instance avec un type de machine A4X, vous ne pouvez plus modifier le type de machine.
- Vous ne pouvez pas exécuter de systèmes d'exploitation Windows sur un type de machine A4X.
- Les instances A4X ne prennent pas en charge :
- La location unique
- Les VM Spot
- Les VM à démarrage flexible
Instances A4
- Seules les options de consommation prises en charge pour un type de machine A4 peuvent être utilisées pour demander de la capacité.
- Vous ne bénéficiez ni de remises automatiques proportionnelles à une utilisation soutenue ni de remises sur engagement d'utilisation flexible pour les instances qui utilisent un type de machine A4.
- Vous ne pouvez utiliser un type de machine A4 que dans certaines régions et zones.
- Vous ne pouvez pas utiliser de disque persistant (régional ou zonal) sur une instance qui utilise un type de machine A4.
- Le type de machine A4 n'est disponible que sur la plate-forme de processeur Emerald Rapids.
- Vous ne pouvez pas modifier le type de machine d'une instance existante en type de machine A4. Vous pouvez uniquement créer de nouvelles instances A4. Une fois que vous avez créé une instance avec un type de machine A4, vous ne pouvez plus modifier le type de machine.
- Les types de machines A4 ne prennent pas en charge la location unique.
- Vous ne pouvez pas exécuter de systèmes d'exploitation Windows sur un type de machine A4.
Instances A3 Ultra
- Seules les options de consommation prises en charge pour un type de machine A3 Ultra peuvent être utilisées pour demander de la capacité.
- Vous ne bénéficiez ni de remises automatiques proportionnelles à une utilisation soutenue ni de remises sur engagement d'utilisation flexible pour les instances qui utilisent un type de machine A3 Ultra.
- Vous ne pouvez utiliser un type de machine A3 Ultra que dans certaines régions et zones.
- Vous ne pouvez pas utiliser de disque persistant (régional ou zonal) sur une instance qui utilise un type de machine A3 Ultra.
- Le type de machine A3 Ultra n'est disponible que sur la plate-forme de processeur Emerald Rapids.
- Vous ne pouvez pas modifier le type de machine d'une instance existante en type de machine A3 Ultra. Vous pouvez uniquement créer de nouvelles instances A3-ultra. Une fois que vous avez créé une instance avec un type de machine A3 Ultra, vous ne pouvez plus modifier le type de machine.
- Vous ne pouvez pas exécuter de systèmes d'exploitation Windows sur un type de machine A3 Ultra.
- Les types de machines A3 Ultra ne prennent pas en charge la location unique.
Instances A3 Mega
- Seules les options de consommation prises en charge pour un type de machine A3 Mega peuvent être utilisées pour demander de la capacité.
- Vous ne bénéficiez ni de remises automatiques proportionnelles à une utilisation soutenue ni de remises sur engagement d'utilisation flexible pour les instances qui utilisent un type de machine A3 Mega.
- Vous ne pouvez utiliser un type de machine A3 Mega que dans certaines régions et zones.
- Vous ne pouvez pas utiliser de disque persistant régional sur une instance qui utilise un type de machine A3 Mega.
- Le type de machine A3 Mega n'est disponible que sur la plate-forme de processeur Sapphire Rapids.
- Vous ne pouvez pas modifier le type de machine d'une instance existante en type de machine A3 Mega. Vous pouvez uniquement créer de nouvelles instances A3-mega. Une fois que vous avez créé une instance avec un type de machine A3 Mega, vous ne pouvez plus modifier le type de machine.
- Vous ne pouvez pas exécuter de systèmes d'exploitation Windows sur un type de machine A3 Mega.
Instances A3 High
- Seules les options de consommation prises en charge pour un type de machine A3 High peuvent être utilisées pour demander de la capacité.
- Vous ne bénéficiez ni de remises automatiques proportionnelles à une utilisation soutenue ni de remises sur engagement d'utilisation flexible pour les instances qui utilisent un type de machine A3 High.
- Vous ne pouvez utiliser un type de machine A3 High que dans certaines régions et zones.
- Vous ne pouvez pas utiliser de disque persistant régional sur une instance qui utilise un type de machine A3 High.
- Le type de machine A3 High n'est disponible que sur la plate-forme de processeur Sapphire Rapids.
- Vous ne pouvez pas modifier le type de machine d'une instance existante en type de machine A3 High. Vous pouvez uniquement créer de nouvelles instances A3-high. Une fois que vous avez créé une instance avec un type de machine A3 High, vous ne pouvez plus modifier le type de machine.
- Vous ne pouvez pas exécuter de systèmes d'exploitation Windows sur un type de machine A3 High.
- Pour les types de machines
a3-highgpu-1g,a3-highgpu-2geta3-highgpu-4g, vous devez créer des instances à l'aide de VM Spot ou de VM à démarrage flexible. Pour obtenir des instructions détaillées sur ces options, consultez les références suivantes :- Pour créer des VM Spot, définissez le modèle de provisionnement sur
SPOTlorsque vous créez une VM optimisée pour les accélérateurs. - Pour créer des VM à démarrage flexible, vous pouvez utiliser l'une des méthodes suivantes :
- Créez une VM autonome et définissez le modèle de provisionnement sur
FLEX_STARTlorsque vous créez une VM optimisée pour les accélérateurs. - Créez une demande de redimensionnement dans un groupe d'instances géré (MIG). Pour obtenir des instructions, consultez Créer un MIG comprenant des VM avec GPU.
- Créez une VM autonome et définissez le modèle de provisionnement sur
- Pour créer des VM Spot, définissez le modèle de provisionnement sur
- Vous ne pouvez utiliser une Confidential VM avec un type de machine
a3-highgpu-1gque dans certaines régions et zones. De plus, toutes les limites applicables aux Confidential VM exécutées sur le type de machine A3 High s'appliquent.
Instances A3 Edge
- Seules les options de consommation prises en charge pour un type de machine A3 Edge peuvent être utilisées pour demander de la capacité.
- Vous ne bénéficiez ni de remises automatiques proportionnelles à une utilisation soutenue ni de remises sur engagement d'utilisation flexible pour les instances qui utilisent un type de machine A3 Edge.
- Vous ne pouvez utiliser un type de machine A3 Edge que dans certaines régions et zones.
- Vous ne pouvez pas utiliser de disque persistant régional sur une instance qui utilise un type de machine A3 Edge.
- Le type de machine A3 Edge n'est disponible que sur la plate-forme de processeur Sapphire Rapids.
- Vous ne pouvez pas modifier le type de machine d'une instance existante en type de machine A3 Edge. Vous pouvez uniquement créer de nouvelles instances A3-edge. Une fois que vous avez créé une instance avec un type de machine A3 Edge, vous ne pouvez plus modifier le type de machine.
- Vous ne pouvez pas exécuter de systèmes d'exploitation Windows sur un type de machine A3 Edge.
- Les types de machines A3 Edge ne prennent pas en charge la location unique.
Instances A2 Standard
- Seules les options de consommation prises en charge pour un type de machine A2 Standard peuvent être utilisées pour demander de la capacité.
- Vous ne bénéficiez ni de remises automatiques proportionnelles à une utilisation soutenue ni de remises sur engagement d'utilisation flexible pour les instances qui utilisent un type de machine A2 Standard.
- Vous ne pouvez utiliser un type de machine A2 Standard que dans certaines régions et zones.
- Les types de machines A2 Standard ne sont disponibles que sur la plate-forme Cascade Lake.
- Si votre instance utilise un type de machine A2 Standard, vous ne pouvez passer d'un type de machine A2 Standard qu'à un autre type de machine A2 Standard. Vous ne pouvez pas passer à un autre type de machine. Pour en savoir plus, consultez Modifier des instances optimisées pour les accélérateurs.
- Vous ne pouvez pas utiliser le système d'exploitation Windows avec le type de machine
a2-megagpu-16g. Lorsque vous utilisez un système d'exploitation Windows, choisissez un autre type de machine A2 Standard. - Vous ne pouvez pas effectuer un formatage rapide des disques SSD locaux associés à des instances Windows qui utilisent des types de machines A2 Standard.
Pour formater ces disques SSD locaux, vous devez effectuer un formatage complet en utilisant l'utilitaire diskpart et en spécifiant
format fs=ntfs label=tmpfs. - Les types de machines A2 Standard ne prennent pas en charge la location unique.
Instances A2 Ultra
- Seules les options de consommation prises en charge pour un type de machine A2 Ultra peuvent être utilisées pour demander de la capacité.
- Vous ne bénéficiez ni de remises automatiques proportionnelles à une utilisation soutenue ni de remises sur engagement d'utilisation flexible pour les instances qui utilisent un type de machine A2 Ultra.
- Vous ne pouvez utiliser un type de machine A2 Ultra que dans certaines régions et zones.
- Les types de machines A2 Ultra ne sont disponibles que sur la plate-forme Cascade Lake.
- Si votre instance utilise un type de machine A2 Ultra, vous ne pouvez pas modifier le type de machine. Si vous devez utiliser un type de machine A2 Ultra différent ou tout autre type de machine, vous devez créer une nouvelle instance.
- Vous ne pouvez pas remplacer un autre type de machine par un type de machine A2 Ultra. Si vous avez besoin d'une instance utilisant un type de machine A2 Ultra, vous devez en créer une.
- Vous ne pouvez pas effectuer un formatage rapide des disques SSD locaux associés à des instances Windows qui utilisent des types de machines A2 Ultra. Pour formater ces disques SSD locaux, vous devez effectuer un formatage complet en utilisant l'utilitaire diskpart et en spécifiant
format fs=ntfs label=tmpfs.
Instances G4
- Seules les options de consommation prises en charge pour un type de machine G4 peuvent être utilisées pour demander de la capacité.
- Vous ne bénéficiez ni de remises automatiques proportionnelles à une utilisation soutenue ni de remises sur engagement d'utilisation flexible pour les instances qui utilisent un type de machine G4.
- Vous ne pouvez utiliser un type de machine G4 que dans certaines régions et zones.
- Vous ne pouvez pas utiliser de disque persistant (régional ou zonal) sur une instance qui utilise un type de machine G4.
- Le type de machine G4 n'est disponible que sur la plate-forme AMD EPYC Turin de 5e génération.
- Vous ne pouvez pas créer d'instances de VM confidentielles qui utilisent un type de machine G4.
- Vous ne pouvez pas créer d'instances G4 sur des nœuds à locataire unique.
- Vous ne pouvez pas utiliser de systèmes d'exploitation Windows sur les instances
g4-standard-384.
Instances G2
- Seules les options de consommation prises en charge pour un type de machine G2 peuvent être utilisées pour demander de la capacité.
- Vous ne bénéficiez ni de remises automatiques proportionnelles à une utilisation soutenue ni de remises sur engagement d'utilisation flexible pour les instances qui utilisent un type de machine G2.
- Vous ne pouvez utiliser un type de machine G2 que dans certaines régions et zones.
- Le type de machine G2 n'est disponible que sur la plate-forme Cascade Lake.
- Les disques persistants standards (
pd-standard) ne sont pas pris en charge par les instances qui utilisent le type de machine G2. Pour connaître les types de disques pris en charge, consultez Types de disques pris en charge pour G2. - Vous ne pouvez pas créer de GPU multi-instances sur une instance qui utilise un type de machine G2.
- Si vous devez modifier le type de machine d'une instance G2, consultez Modifier des instances optimisées pour les accélérateurs.
- Vous ne pouvez pas utiliser Deep Learning VM Images en tant que disques de démarrage pour les instances utilisant le type de machine G2.
- Le pilote par défaut actuel de Container-Optimized OS ne prend pas en charge les GPU L4 s'exécutant sur des types de machines G2. Qui plus est, Container-Optimized OS ne prend en charge qu'un ensemble sélectionné de pilotes.
Si vous souhaitez utiliser Container-Optimized OS sur des types de machines G2, consultez les notes suivantes :
- Utilisez une version de Container-Optimized OS qui prend en charge la version minimum recommandée
525.60.13du pilote NVIDIA ou une version ultérieure. Pour en savoir plus, consultez les notes de version de Container-Optimized OS. - Lorsque vous installez le pilote, spécifiez la dernière version disponible compatible avec les GPU L4.
Par exemple,
sudo cos-extensions install gpu -- -version=525.60.13.
- Utilisez une version de Container-Optimized OS qui prend en charge la version minimum recommandée
- Vous devez utiliser la Google Cloud CLI ou REST pour créer des instances G2 dans les scénarios suivants :
- Vous souhaitez spécifier des valeurs personnalisées de mémoire.
- Vous souhaitez personnaliser le nombre de cœurs de processeur visibles.
Instances N1+GPU
Pour en savoir plus sur les limites des instances N1 avec GPU, consultez fonctionnalités pour la série de machines N1 et GPU pour la série de machines N1.
Choisir un système d'exploitation
Si vous utilisez des GPU pour le machine learning, utilisez l'un des systèmes d'exploitation suivants :
Images optimisées pour les charges de travail d'IA. Vous pouvez utiliser des images Ubuntu et Rocky, disponibles dans des versions optimisées pour les accélérateurs avec les pilotes NVIDIA et CUDA Toolkit préinstallés. Consultez Images de l'OS dans la documentation AI Hypercomputer.
Images Deep Learning VM Image. Chaque image Deep Learning VM dispose d'un outil d'installation de pilote GPU et inclut des packages tels que TensorFlow et PyTorch. Vous pouvez également utiliser une image Deep Learning VM pour les charges de travail générales des GPU. Pour en savoir plus sur les images disponibles et les packages installés sur ces images, consultez Choisir une image dans la documentation de Deep Learning VM.
Vous pouvez également utiliser une image publique ou personnalisée. Pour la plupart des images publiques ou des images personnalisées, vous devez installer les pilotes NVIDIA et CUDA Toolkit. Pour identifier les pilotes adaptés à votre modèle de GPU, consultez Installer des pilotes de GPU.
Vérifier le quota de GPU
Pour protéger les systèmes et les utilisateurs de Compute Engine, les nouveaux projets bénéficient d'un quota global de GPU, ce qui limite le nombre total de GPU que vous pouvez créer dans les zones disponibles. Pour examiner le quota de GPU, consultez Quota de GPU.
Si vous avez besoin d'un quota de GPU supplémentaire, demandez une augmentation de quota. Lorsque vous demandez un quota de GPU, vous devez demander un quota pour les types de GPU que vous souhaitez créer dans chaque région, mais également un quota mondial supplémentaire pour le nombre total de GPU de tout type dans toutes les zones.
Si votre projet a un historique de facturation établi, il recevra automatiquement un quota après l'envoi de la demande.
Instances de GPU et quotas d'allocation préemptifs
Les instances qui utilisent le modèle de provisionnement standard ne peuvent généralement pas utiliser les quotas d'allocation préemptifs. Les quotas préemptifs sont destinés aux charges de travail temporaires et sont généralement davantage disponibles. Si votre projet ne dispose pas de quota préemptif et que vous n'en avez jamais fait la demande, toutes les instances de votre projet consomment des quotas d'allocation standards.
Si vous demandez un quota d'allocation préemptif, les instances qui utilisent le modèle de provisionnement standard doivent répondre à tous les critères suivants pour consommer le quota d'allocation préemptif :
- Les instances sont associées à des GPU.
- Les instances sont configurées pour être automatiquement supprimées après une durée d'exécution prédéfinie via le champ
maxRunDurationouterminationTime. Pour en savoir plus, consultez les ressources suivantes : - L'instance n'est pas autorisée à consommer des réservations. Pour en savoir plus, consultez Empêcher les instances de calcul de consommer des réservations.
Lorsque vous consommez une allocation préemptive pour des charges de travail GPU temporalisées, vous pouvez bénéficier à la fois d'une durée d'exécution ininterrompue et d'une meilleur disponibilité grâce au quota d'allocation préemptif. Pour en savoir plus, consultez Quotas préemptifs.
Créer une instance dotée de GPU associés
Pour créer une instance à laquelle sont associés des GPU, procédez comme suit :
Créez l'instance. La méthode utilisée pour créer une instance dépend de la charge de travail que vous souhaitez exécuter.
Types de machines avec GPU Charges de travail d'IA et de ML Graphiques et visualisation Autres charges de travail GPU Les types de machines de série A optimisées pour les accélérateurs sont conçus pour les charges de travail de calcul hautes performances (HPC), d'intelligence artificielle (IA) et de machine learning (ML). Pour ces types de machines, le modèle de GPU est automatiquement associé à l'instance.
Les types de machines de série G optimisées pour les accélérateurs sont conçus pour les charges de travail de simulation NVIDIA Omniverse, les applications exigeantes en ressources graphiques, le transcodage vidéo et les bureaux virtuels. Ces types de machines sont compatibles avec les postes de travail virtuels (vWS) NVIDIA RTX. Pour ces types de machines, le modèle de GPU est automatiquement associé à l'instance.
Pour les types de machines à usage général N1, à l'exception des types N1 à cœur partagé (
f1-microetg1-small), vous pouvez associer une sélection de modèles de GPU. Certains de ces modèles de GPU sont également compatibles avec les postes de travail virtuels (vWS) NVIDIA RTX.Pour les charges de travail d'IA, de ML et de HPC, choisissez l'une des options suivantes :
- Pour créer des instances A4X (GB200), A4 (B200) ou A3 Ultra (H200), consultez la présentation des options de déploiement dans la documentation AI Hypercomputer.
- Pour créer des instances A3 High (H100), Mega (H100), Edge (H100) ou A2 (A100), consultez Créer une instance A3 ou A2.
Pour créer une instance G2 (L4) ou G4 (RTX PRO 6000), consultez Créer une instance G2 ou G4. Pour créer une instance N1 à laquelle sont associés des GPU NVIDIA T4, P4, P100 ou V100, consultez Créer une instance N1 associée à des GPU. Installez le pilote de GPU sur votre instance pour que celle-ci puisse utiliser le GPU. Si vous avez activé un poste de travail virtuel NVIDIA RTX (anciennement appelé NVIDIA GRID), installez un pilote pour le poste de travail virtuel.
Étapes suivantes
Apprenez-en plus sur les plates-formes GPU.
Apprenez-en plus sur les fonctionnalités et limites d'utilisation des GPU.
- Découvrez comment afficher l'utilisation réelle et prévue de vos GPU.