Créer un MIG avec une tranche Cloud TPU multi-hôtes
Ce document explique comment créer un groupe d'instances géré (MIG) avec un slice TPU multihôte.
Prérequis
Remplissez les conditions préalables suivantes :
- Créez un projet pour vos TPU comme décrit dans Configurer un projet pour les TPU.
- Déterminez vos besoins en TPU comme décrit dans Planifier vos ressources.
Créer un MIG avec des tranches TPU multi-hôtes
- Créer un modèle d'instance.
- Créez une règle de charge de travail.
- Créez le MIG.
Créer un modèle d'instance
La commande permettant de créer un modèle d'instance dépend de l'option de consommation que vous utilisez : à la demande, Spot, liée à une réservation ou à démarrage flexible. Pour en savoir plus sur les options de consommation, consultez Planifier vos ressources TPU.
Créer un modèle d'instance pour une VM TPU à la demande
La commande suivante crée un modèle d'instance à l'aide de l'option de consommation à la demande :
gcloud compute instance-templates create INSTANCE_TEMPLATE_NAME \
--machine-type=MACHINE_TYPE \
--maintenance-policy=TERMINATE \
--image-family=IMAGE_FAMILY \
--image-project=IMAGE_PROJECT
Remplacez les espaces réservés suivants :
INSTANCE_TEMPLATE_NAME: nom de votre modèle d'instance.MACHINE_TYPE: type de machine pour la VM TPU, par exemplect6e-standard-8t.IMAGE_FAMILY: famille d'images d'OS pour la VM TPU. Si vous souhaitez installer une version spécifique de l'OS, utilisez l'option--image. Pour en savoir plus sur les images d'OS, consultez Images d'OS.IMAGE_PROJECT: projet contenant l'image de l'OS. Pour les images TPU, il s'agit deubuntu-os-accelerator-images.
Créer un modèle d'instance pour une VM Spot TPU
La commande suivante crée un modèle d'instance à l'aide de l'option de consommation Spot :
gcloud compute instance-templates create INSTANCE_TEMPLATE_NAME \
--machine-type=MACHINE_TYPE \
--maintenance-policy=TERMINATE \
--instance-termination-action=STOP \
--provisioning-model=SPOT \
--image-family=IMAGE_FAMILY \
--image-project=IMAGE_PROJECT
Remplacez les espaces réservés suivants :
INSTANCE_TEMPLATE_NAME: nom de votre modèle d'instance.MACHINE_TYPE: type de machine pour la VM TPU, par exemplect6e-standard-8t.IMAGE_FAMILY: famille d'images d'OS pour la VM TPU. Si vous souhaitez installer une version spécifique de l'OS, utilisez l'option--image. Pour en savoir plus sur les images d'OS, consultez Images d'OS.IMAGE_PROJECT: projet contenant l'image de l'OS. Pour les images TPU, il s'agit deubuntu-os-accelerator-images.
Créer un modèle d'instance pour une VM liée à une réservation de TPU
La commande suivante crée un modèle d'instance à l'aide de l'option de consommation liée à la réservation :
gcloud compute instance-templates create INSTANCE_TEMPLATE_NAME \
--machine-type=MACHINE_TYPE \
--maintenance-policy=TERMINATE \
--instance-termination-action=DELETE \
--reservation-affinity=specific \
--provisioning-model=reservation-bound \
--reservation=RESERVATION_NAME \
--image-family=IMAGE_FAMILY \
--image-project=IMAGE_PROJECT
Remplacez les espaces réservés suivants :
INSTANCE_TEMPLATE_NAME: nom de votre modèle d'instance.MACHINE_TYPE: type de machine pour la VM TPU, par exemplect6e-standard-8t.RESERVATION_NAME: nom de la réservation spécifique à consommer.IMAGE_FAMILY: famille d'images d'OS pour la VM TPU. Si vous souhaitez installer une version spécifique de l'OS, utilisez l'option--image. Pour en savoir plus sur les images d'OS, consultez Images d'OS.IMAGE_PROJECT: projet contenant l'image de l'OS. Pour les images TPU, il s'agit deubuntu-os-accelerator-images.
Créer un modèle d'instance pour une VM TPU à démarrage flexible
La commande suivante crée un modèle d'instance à l'aide de l'option de consommation à démarrage flexible :
gcloud compute instance-templates create INSTANCE_TEMPLATE_NAME \
--machine-type=MACHINE_TYPE \
--maintenance-policy=TERMINATE \
--instance-termination-action=DELETE \
--provisioning-model=FLEX_START \
--max-run-duration=DURATION \
--image-family=IMAGE_FAMILY \
--image-project=IMAGE_PROJECT
Remplacez les espaces réservés suivants :
INSTANCE_TEMPLATE_NAME: nom de votre modèle d'instance.MACHINE_TYPE: type de machine pour la VM TPU, par exemplect6e-standard-8t.DURATION: durée maximale d'exécution de la VM TPU.IMAGE_FAMILY: famille d'images d'OS pour la VM TPU. Si vous souhaitez installer une version spécifique de l'OS, utilisez l'option--image. Pour en savoir plus sur les images d'OS, consultez Images d'OS.IMAGE_PROJECT: projet contenant l'image de l'OS. Pour les images TPU, il s'agit deubuntu-os-accelerator-images.
Créer une règle de charge de travail
Vous devez créer une règle de charge de travail avec le paramètre accelerator-topology (par exemple, 4x4, 8x8 ou 4x4x4). La topologie d'accélérateur configure le MIG pour qu'il traite les instances comme une tranche unique et interconnectée.
La commande suivante crée une règle de charge de travail :
gcloud compute resource-policies create workload-policy WORKLOAD_POLICY_NAME \
--type=high-throughput \
--accelerator-topology=TOPOLOGY \
--region=REGION
Remplacez les espaces réservés suivants :
WORKLOAD_POLICY_NAME: nom de votre stratégie de charge de travail.TOPOLOGY: topologie des VM TPU, par exemple4x4x8. Pour en savoir plus sur la topologie de chaque version de TPU, consultez Architecture du système.REGION: région de votre règle de charge de travail.
Créer un MIG
Créez un MIG zonal ou régional à l'aide de la commande gcloud compute instance-groups managed create comme suit :
Pour créer un MIG zonal contenant une tranche de TPU multi-hôte, utilisez la commande suivante :
gcloud compute instance-groups managed create MIG_NAME \ --size=MIG_SIZE \ --target-size-policy-mode=bulk \ --template=INSTANCE_TEMPLATE_URL \ --zone=ZONE \ --default-action-on-vm-failure=do-nothing \ --workload-policy=WORKLOAD_POLICY_URLPour créer un MIG régional contenant une tranche TPU multi-hôte, utilisez la commande suivante :
gcloud compute instance-groups managed create MIG_NAME \ --size=MIG_SIZE \ --target-size-policy-mode=bulk \ --template=INSTANCE_TEMPLATE_URL \ --region=REGION \ --default-action-on-vm-failure=do-nothing \ --workload-policy=WORKLOAD_POLICY_URL \ --target-distribution-shape=any-single-zone \ --instance-redistribution-type=none
Remplacez les espaces réservés suivants :
MIG_NAME: nom de votre MIG.MIG_SIZE: nombre de VM dans le MIG.INSTANCE_TEMPLATE_URL: URL du modèle d'instance que vous souhaitez utiliser pour créer des instances dans le MIG. L'URL peut contenir l'ID ou le nom du modèle d'instance. Spécifiez une des valeurs suivantes :- Pour un modèle d'instance régional :
projects/PROJECT_ID/regions/REGION/instanceTemplates/INSTANCE_TEMPLATE_ID - Pour un modèle d'instance global :
INSTANCE_TEMPLATE_ID
- Pour un modèle d'instance régional :
ZONE: zone de votre MIG.REGION: région de votre MIG.WORKLOAD_POLICY_URL: URL de la règle de charge de travail que vous souhaitez utiliser pour créer des instances dans le MIG. Exemple :projects/PROJECT_ID/regions/WORKLOAD_POLICY_REGION/resourcePolicies/WORKLOAD_POLICY_NAME.
Créer des VM avec des noms personnalisés dans un MIG
Vous pouvez créer des VM dans un MIG en spécifiant des noms personnalisés pour chacune d'elles. Cela est utile pour le débogage et pour s'assurer que les instances sont créées dans un ordre spécifique.
Les MIG contenant une tranche de TPU multi-hôte utilisent le mode groupé de la règle de taille cible. Lorsque vous créez des VM avec des noms personnalisés dans un tel MIG, les éléments suivants s'appliquent :
Vous devez d'abord vérifier que le MIG ne contient aucune VM. Si le MIG comporte des VM, vous devez redimensionner le MIG pour atteindre la taille cible
0ou créer un autre MIG avec la taille cible0.Vous ne pouvez utiliser l'API REST que pour créer des VM avec des noms personnalisés.
Créez des VM avec des noms personnalisés à l'aide de l'une des méthodes d'API REST suivantes :
Pour un MIG zonal, utilisez
instanceGroupManagers.createInstances.POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instanceGroupManagers/MIG_NAME/createInstances { "instances": [ { "name": "INSTANCE_NAME_1" }, { "name": "INSTANCE_NAME_2" }, ... ] }Pour un MIG régional, utilisez
regionInstanceGroupManagers.createInstances.POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/regions/REGION/instanceGroupManagers/MIG_NAME/createInstances { "instances": [ { "name": "INSTANCE_NAME_1" }, { "name": "INSTANCE_NAME_2" }, ... ] }
Remplacez les espaces réservés suivants :
PROJECT_ID: ID du projet dans lequel se trouve le MIG.ZONE: zone du MIG.REGION: région du MIG.INSTANCE_NAME_1,2,..: noms des VM à ajouter au MIG spécifié.
Étapes suivantes
- En savoir plus sur les VM et les MIG de TPU
- Découvrez comment créer un MIG avec une tranche Cloud TPU à hôte unique.
- Découvrez comment gérer les VM TPU.
- En savoir plus sur les TPU dans GKE
- Découvrez comment exécuter une charge de travail de ML sur des TPU, par exemple Diffuser Qwen2-72B-Instruct avec vLLM sur des TPU.