À propos des options de consommation d'accélérateurs pour les charges de travail d'IA/de ML dans GKE

Cette page décrit les techniques disponibles que vous pouvez utiliser pour obtenir des accélérateurs de calcul, tels que des GPU ou des TPU, en fonction des exigences de vos charges de travail d'IA/ML. Ces techniques sont appelées options d'utilisation des accélérateurs dans GKE. Comprendre les différentes options d'utilisation vous aide à optimiser l'utilisation des ressources pour éviter de les sous-utiliser, augmenter la probabilité d'obtenir des ressources et équilibrer les coûts et les performances.

Cette page est destinée aux administrateurs et opérateurs de plate-forme qui collaborent avec des ingénieurs en machine learning (ML) pour obtenir les ressources nécessaires au déploiement réussi des charges de travail d'IA/ML.

Pour en savoir plus sur les rôles courants et les exemples de tâches que nous citons dans Google Cloud le contenu, consultez Rôles utilisateur et tâches courantes de GKE.

Comprendre les options d'utilisation

Vous pouvez choisir parmi les options suivantes pour utiliser des accélérateurs sur GKE :

  • À la demande : vous utilisez des TPU ou des GPU sur GKE sans organiser la capacité à l'avance. Avant de demander des ressources, vous devez disposer d'un quota à la demande suffisant pour le type et la quantité spécifiques d'accélérateurs. L'option à la demande est la plus flexible, mais il n'est pas garanti que suffisamment de ressources à la demande soient disponibles pour répondre à votre demande.
  • Réservations : vous réservez des ressources pour une période définie. Une réservation peut être l'une des suivantes :
    • Réservations futures : vous réservez des ressources pour des durées généralement plus longues à un moment précis dans le futur. Vous disposez d'un accès exclusif à vos ressources réservées pendant cette période. Les réservations futures nécessitent l'intervention d'un responsable de compte technique (TAM). Pour en savoir plus, consultez les conseils concernant les TPU et les GPU.
    • Réservations futures jusqu'à 90 jours (en mode Agenda) : vous demandez de la capacité pour une période spécifiée, et un conseiller de l'agenda suggère les dates disponibles. Les réservations futures jusqu'à 90 jours (en mode Agenda) offrent plus de flexibilité pour les durées plus courtes et la recherche de capacité en libre-service. Pour en savoir plus, consultez Demandes de réservations futures en mode Agenda.
    • Réservations à la demande : vous pouvez demander qu'une réservation à la demande soit provisionnée dès que la capacité est disponible, comme pour l'option à la demande. Tant que la réservation est active, vous payez les ressources, que vous les utilisiez ou non.
  • Démarrage flexible : vous sécurisez des ressources à allocation dense pour les charges de travail de courte durée sans réservation. Vous demandez un nombre spécifique de GPU ou de TPU, et Compute Engine les provisionne lorsque la capacité devient disponible. Les GPU ou les TPU s'exécutent sans interruption pendant sept jours maximum. Pour en savoir plus, consultez Provisionnement avec démarrage flexible.
  • Spot : vous provisionnez des VM Spot, ce qui vous permet de bénéficier de remises importantes, mais les VM Spot peuvent être préemptées à tout moment, avec un avertissement de 30 secondes. Pour en savoir plus, consultez VM Spot.

Comprendre le quota d'accélérateur dans GKE

Les quotas et les limites système restreignent votre utilisation des Google Cloud ressources afin de garantir leur disponibilité pour tous les Google Cloud utilisateurs. Les quotas ont des valeurs par défaut, mais vous pouvez généralement demander des ajustements. Les limites système sont des valeurs fixes qui ne peuvent pas être modifiées. Par défaut, les projets ne sont généralement pas fournis avec un quota d'accélérateur important. Vous devez demander et recevoir une approbation pour le quota de types et de régions d'accélérateurs spécifiques.

Tenez compte des caractéristiques suivantes lorsque vous gérez les quotas dont vos charges de travail ont besoin :

  • Vous devez demander le quota nécessaire pour chaque option d'utilisation. Pour identifier le quota requis pour chaque option d'utilisation, consultez les paramètres "Quota" correspondants listés dans le tableau Choisir une option d'utilisation. Si le quota est insuffisant, les tentatives de création de clusters ou de pools de nœuds, ou de déploiement de charges de travail nécessitant des accélérateurs échoueront avec une erreur Quota exceeded.

  • Vous devez demander un quota lorsque vous utilisez des classes de calcul personnalisées dans Autopilot. Les nœuds provisionnés pour répondre aux exigences de la classe de calcul consomment toujours le quota de votre projet pour les accélérateurs spécifiés.

  • Google Cloud Les comptes d'essai sans frais sont soumis à des limites concernant les demandes d'augmentation de quota pour les ressources à forte valeur ajoutée telles que les GPU et les TPU. Pour accéder au quota d'accélérateur, passez à un compte payant.

Pour vérifier et demander un quota, accédez à la page Quotas de la Google Cloud console. Vous pouvez filtrer les quotas d'accélérateur et demander des augmentations.

Choisir une option d'utilisation

Tenez compte des éléments suivants pour choisir la meilleure option d'utilisation pour votre charge de travail d'IA/ML :

  • Type de charge de travail : tenez compte du type de charge de travail que vous souhaitez implémenter. Les exigences de GKE varient selon que vous exécutez une charge de travail d'entraînement ou d'inférence :
    • Entraînement : nécessite des ressources hautes performances avec une mémoire importante. Les charges de travail d'entraînement ont généralement une durée de vie bien définie. Ces charges de travail sont généralement plus faciles à planifier, car elles sont moins sujettes à des pics soudains de consommation de ressources.
    • Inférence : nécessite généralement des accélérateurs optimisés pour l'évolutivité et un coût inférieur. Les charges de travail d'inférence peuvent nécessiter une mémoire d'accélérateur importante lors de pics soudains de consommation de ressources.
  • Durée de vie en fonction de la phase d'implémentation : tenez compte de votre objectif commercial si vous exécutez une preuve de concept (POC), une évaluation de plate-forme, un développement ou un test d'application, une production ou une optimisation.
  • Délai de provisionnement : déterminez si votre charge de travail nécessite une exécution immédiate ou si elle peut être exécutée ultérieurement. Si l'exécution future est possible, déterminez la flexibilité de l'heure de début.
  • Équilibre entre coût et performances : évaluez les exigences de performances de votre charge de travail et les contraintes budgétaires pour sélectionner l'accélérateur le plus rentable. Tenez compte du compromis entre le coût des accélérateurs et leurs caractéristiques de performances. N'oubliez pas que les nouveaux accélérateurs peuvent améliorer les rapports coût/performances.

Utilisez le tableau suivant pour choisir une option d'utilisation :

Type de charge de travail Délai de provisionnement Durée de vie Option d'utilisation recommandée
  • Charges de travail de longue durée et à grande échelle, telles que le pré-entraînement de modèles de fondation ou l'inférence multihôte.
  • Charges de travail de production.
Immédiat (avec réservation approuvée) À long terme (par réservation)

Si vous souhaitez utiliser un GPU (à l'exception des A4X, A4 ou A3 Ultra) ou un TPU, utilisez les réservations à la demande :

  • Coût : la période de réservation complète vous est facturée.
  • Quota : le quota est automatiquement augmenté avant la livraison de la capacité.

Si vous souhaitez utiliser des accélérateurs G2, A2, A3 High avec 8 GPU ou A3 Mega, utilisez les réservations futures :

  • Coût : la période de réservation complète vous est facturée.
  • Quota : le quota est automatiquement augmenté avant la livraison de la capacité.
  • Charges de travail distribuées de courte durée, telles que l'affinage de modèles, les simulations ou l'inférence par lot, où une heure de début précise est nécessaire.
  • Charges de travail pour l'évaluation de la plate-forme, l'analyse comparative ou les tests d'optimisation.
Immédiat (avec réservation approuvée) Jusqu'à 90 jours

Réservations futures jusqu'à 90 jours (en mode Agenda):

  • Coût : avec remise (jusqu'à 53%) La période de réservation vous est facturée.
  • Quota : aucun quota n'est facturé.
  • Accélérateurs compatibles : A4, A3 Ultra, A3 Mega, A3 High avec 8 GPU, Ironwood (TPU7x), TPU v6e, TPU v5p ou TPU v5e.
  • Charges de travail par lot telles que l'entraînement de petits modèles, l'affinage ou l'inférence évolutive où l'heure de début est flexible.
  • Charges de travail pour les POC ou les tests d'intégration.
À la demande (sous réserve de disponibilité) Jusqu'à 7 jours par allocation

Mode de provisionnement avec démarrage flexible:

  • Charges de travail tolérantes aux pannes et de priorité inférieure, telles que l'intégration continue/la livraison continue (CI/CD), l'analyse de données ou le calcul hautes performances (HPC).
  • Charges de travail hautement interruptibles.
À la demande (sous réserve de disponibilité) Variable, peut être préempté avec un avertissement de 30 secondes

VM Spot:

  • Coût : avec remise importante (jusqu'à 91%) Vous payez à l'usage.
  • Quota : le quota de GPU préemptifs ou le quota de TPU préemptifs est facturé.
  • Accélérateurs compatibles : toutes les familles de GPU, à l'exception des A4X. Toutes les versions de TPU.
  • Charges de travail à usage général nécessitant une exécution immédiate.
Immédiat (sous réserve de disponibilité) Aucune limite

À la demande (GPU ou TPU) :

  • Coût : vous payez à l'usage.
  • Quota : le quota de GPU ou de TPU à la demande est facturé.
  • Accélérateurs compatibles : toutes les familles de GPU, à l'exception des A4X, A4 ou A3 Ultra. Toutes les versions de TPU.

Étape suivante