Utiliser les réservations avec l'entraînement

Ce document explique comment utiliser les réservations Compute Engine pour vous assurer que vos jobs d'entraînement sans serveur disposent des ressources de machine virtuelle (VM) nécessaires pour s'exécuter.

Les réservations sont une fonctionnalité de Compute Engine. Elles vous permettent de vous assurer que vous disposez des ressources nécessaires pour créer des VM avec le même matériel (mémoire et processeurs virtuels) et les mêmes ressources facultatives (processeurs, GPU, TPU et disques SSD locaux) chaque fois que vous en avez besoin.

Lorsque vous créez une réservation, Compute Engine vérifie que la capacité demandée est disponible dans la zone spécifiée. Si c'est le cas, Compute Engine réserve les ressources, crée la réservation et les événements suivants se produisent :

  • Vous pouvez immédiatement utiliser les ressources réservées, qui restent disponibles jusqu'à ce que vous supprimiez la réservation.
  • Les ressources réservées vous sont facturées au même tarif à la demande que les VM en cours d'exécution, y compris les remises applicables, jusqu'à ce que la réservation soit supprimée. Une VM qui utilise une réservation n'entraîne pas de frais distincts. Vous n'êtes facturé que pour les ressources qui ne font pas partie de la réservation, comme les disques ou les adresses IP. Pour en savoir plus, consultez la section Tarifs des réservations.

Limites et exigences

Lorsque vous utilisez des réservations Compute Engine avec Vertex AI, tenez compte des limites et des exigences suivantes :

  • Vertex AI ne peut utiliser que les réservations pour les processeurs, les VM avec GPU, ou les TPU (bêta).
  • Vertex AI ne peut pas utiliser les réservations de VM auxquelles des disques SSD locaux sont associés manuellement.
  • L'utilisation de réservations Compute Engine avec Vertex AI n'est possible que pour l'entraînement sans serveur, l'inférence et Vertex AI Workbench (bêta).
  • Pour utiliser la réservation, les propriétés de VM de la réservation doivent correspondre exactement à celles de votre charge de travail Vertex AI pour consommer la réservation. Par exemple, si une réservation spécifie un type de machine a2-ultragpu-8g, la charge de travail Vertex AI ne peut utiliser la réservation que si elle utilise également un type de machine a2-ultragpu-8g. Consultez la section Exigences.
  • Pour utiliser une réservation partagée de VM avec GPU ou de TPU, vous devez l'utiliser avec son projet propriétaire ou un projet client avec lequel la réservation est partagée. Consultez la section Fonctionnement des réservations partagées.
  • Pour permettre la mise à jour régulière de vos déploiements Vertex AI, nous vous recommandons d'augmenter le nombre de VM d'au moins une VM pour chaque déploiement simultané.
  • Le démarrage flexible pour le planificateur de charges de travail dynamiques et l'exécution de jobs d'entraînement sur une ressource persistante sont tous deux compatibles, sauf lorsque vous utilisez des réservations Compute Engine avec l'entraînement Vertex AI.

Facturation

Lorsque vous utilisez des réservations Compute Engine, vous êtes facturé pour les éléments suivants :

  • Tarifs Compute Engine pour les ressources Compute Engine, y compris les remises sur engagement d'utilisation applicables. Consultez la page Tarifs de Compute Engine.
  • Des frais de gestion de l'entraînement sans serveur Vertex AI s'ajoutent à votre infrastructure usage. Consultez les tarifs des modèles entraînés personnalisés.

Avant de commencer

Autoriser l'utilisation d'une réservation

Avant d'utiliser une réservation de processeurs, de VM avec GPU ou de TPU, vous devez définir sa règle de partage pour autoriser Vertex AI à utiliser la réservation. Pour ce faire, utilisez l'une des méthodes suivantes :

Autoriser la consommation lors de la création d'une réservation

Lorsque vous créez une réservation à projet unique ou partagée de VM avec GPU, vous pouvez autoriser Vertex AI à utiliser la réservation comme suit :

  • Si vous utilisez la Google Cloud console, sélectionnez Partager la réservation dans la section Services Google Cloud.
  • Si vous utilisez Google Cloud CLI, incluez le --reservation-sharing-policy flag défini sur ALLOW_ALL.
  • Si vous utilisez l'API REST, incluez le champ serviceShareType défini sur ALLOW_ALL dans le corps de la requête.

Autoriser la consommation d'une réservation existante

Vous ne pouvez modifier une réservation créée automatiquement de VM avec GPU ou de TPU pour une réservation future qu'après l'heure de début de la réservation.

Pour autoriser Vertex AI à utiliser une réservation existante, utilisez l'une des méthodes suivantes :

Vérifier qu'une réservation est utilisée

Pour vérifier que la réservation est utilisée, consultez la section Vérifier la consommation des réservations dans la documentation Compute Engine.

Créer un job d'entraînement sans serveur avec une réservation

Utilisez l'API REST pour créer un job d'entraînement sans serveur Vertex AI qui utilise une réservation Compute Engine de VM avec GPU.

REST

Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :

  • LOCATION : région où le conteneur ou le package Python sera exécuté.
  • PROJECT_ID : projet dans lequel la réservation a été créée. Pour utiliser une réservation partagée à partir d'un autre projet, vous devez partager la réservation avec ce projet. Pour en savoir plus, consultez la section Modifier les projets clients dans une réservation partagée.
  • JOB_NAME : valeur obligatoire. nom à afficher pour CustomJob.
  • MACHINE_TYPE : type de machine à utiliser pour le job. Le paramètre par défaut est n1-standard-2. Pour en savoir plus sur les types de machines compatibles, consultez la section Configurer des ressources de calcul pour l'entraînement personnalisé.
  • ACCELERATOR_TYPE : type d'accélérateur à associer à la machine. Pour en savoir plus sur le type de GPU compatible avec chaque type de machine, consultez la section GPU pour les charges de travail de calcul.
  • ACCELERATOR_COUNT : nombre d'accélérateurs à associer à la machine.
  • Définissez le job d'entraînement personnalisé :
    • RESERVATION_AFFINITY_TYPE : La valeur doit être ANY_RESERVATION, SPECIFIC_RESERVATION ou NO_RESERVATION.

      • ANY_RESERVATION signifie que les VM de votre customJob peuvent automatiquement utiliser toute réservation avec des propriétés correspondantes.
      • SPECIFIC_RESERVATION signifie que les VM de votre customJob ne peuvent consommer qu'une réservation que les VM ciblent spécifiquement par son nom.
      • NO_RESERVATION signifie que les VM de votre customJob ne peuvent utiliser aucune réservation. Spécifier NO_RESERVATION a le même effet que d'omettre une spécification d'affinité de réservation.
    • ZONE : zone dans laquelle la réservation a été créée.
    • RESERVATION_NAME : nom de votre réservation.
    • DISK_TYPE : facultatif. Type de disque de démarrage à utiliser pour la tâche (pd-standard par défaut) ou pd-ssd. En savoir plus sur les types de disques
    • DISK_SIZE : facultatif. Taille en Go du disque de démarrage à utiliser pour la tâche. La valeur par défaut est 100.
    • REPLICA_COUNT : nombre d'instances dupliquées de nœuds de calcul à utiliser. Dans la plupart des cas, définissez cette valeur sur 1 pour votre premier pool de nœuds de calcul.
    • Si votre application d'entraînement s'exécute dans un conteneur personnalisé, spécifiez les éléments suivants :
      • CUSTOM_CONTAINER_IMAGE_URI : URI d'une image de conteneur dans Artifact Registry ou Docker Hub à exécuter sur chaque instance répliquée de nœud de calcul.
      • CUSTOM_CONTAINER_COMMAND : facultatif. Commande à appeler au démarrage du conteneur. Cette commande ignore le point d'entrée par défaut du conteneur.
      • CUSTOM_CONTAINER_ARGS : facultatif. Arguments à transmettre lors du démarrage du conteneur.
    • Si votre application d'entraînement est un package Python qui s'exécute dans un conteneur prédéfini, spécifiez les éléments suivants :
      • EXECUTOR_IMAGE_URI : URI de l'image de conteneur qui exécute le code fourni. Pour en savoir plus, consultez la liste des conteneurs prédéfinis disponibles pour l'entraînement.
      • PYTHON_PACKAGE_URIS : liste d'URI Cloud Storage séparés par une virgule spécifiant les fichiers de package Python correspondant au programme d'entraînement et ses packages dépendants. Le nombre maximal d'URI de package est de 100.
      • PYTHON_MODULE : nom du module Python à exécuter après l'installation des packages.
      • PYTHON_PACKAGE_ARGS : facultatif. arguments de ligne de commande à transmettre au module Python.
    • TIMEOUT : facultatif. Durée d'exécution maximale pour la tâche.
  • Spécifiez les éléments LABEL_NAME et LABEL_VALUE pour tous les libellés que vous souhaitez appliquer à ce job personnalisé.

Méthode HTTP et URL :

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/customJobs

Corps JSON de la requête :

{
  "displayName": "JOB_NAME",
  "jobSpec": {
    "workerPoolSpecs": [
      {
        "machineSpec": {
          "machineType": "MACHINE_TYPE",
          "acceleratorType": "ACCELERATOR_TYPE",
          "acceleratorCount": ACCELERATOR_COUNT,
          "reservationAffinity": {
            "reservationAffinityType": "RESERVATION_AFFINITY_TYPE",
            // Use the following key and values below only if
            // the reservationAffinityType is SPECIFIC_RESERVATION.
            "key": "compute.googleapis.com/reservation-name",
            "values": [
              "projects/PROJECT_ID/zones/ZONE/reservations/RESERVATION_NAME"
            ]
          },
        },
        "replicaCount": REPLICA_COUNT,
        "diskSpec": {
          "bootDiskType": DISK_TYPE,
          "bootDiskSizeGb": DISK_SIZE
        },

        // Union field task can be only one of the following:
        "containerSpec": {
          "imageUri": CUSTOM_CONTAINER_IMAGE_URI,
          "command": [
            CUSTOM_CONTAINER_COMMAND
          ],
          "args": [
            CUSTOM_CONTAINER_ARGS
          ]
        },
        "pythonPackageSpec": {
          "executorImageUri": EXECUTOR_IMAGE_URI,
          "packageUris": [
            PYTHON_PACKAGE_URIS
          ],
          "pythonModule": PYTHON_MODULE,
          "args": [
            PYTHON_PACKAGE_ARGS
          ]
        }
        // End of list of possible types for union field task.
      }
      // Specify one workerPoolSpec for single replica training, or multiple workerPoolSpecs
      // for distributed training.
    ],
    "scheduling": {
      "timeout": TIMEOUT
    }
  },
  "labels": {
    LABEL_NAME_1": LABEL_VALUE_1,
    LABEL_NAME_2": LABEL_VALUE_2
  }
}

Pour envoyer votre requête, choisissez l'une des options suivantes :

curl

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/customJobs"

PowerShell

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/customJobs" | Select-Object -Expand Content

La réponse contient des informations sur les spécifications, ainsi que sur TRAININGPIPELINE_ID.

Étape suivante