Créer des VM Cloud TPU avec des MIG

Les groupes d'instances gérés (MIG) automatisent la création, la configuration et la gestion du cycle de vie d'une collection de VM. Ils offrent des avantages tels que la haute disponibilité grâce à l'autoréparation et aux déploiements régionaux (multizones), la mise à l'échelle automatique pour gérer les charges variables et les mises à jour progressives simplifiées pour les applications. Pour en savoir plus, consultez la section Groupes d'instances gérés.

Vous pouvez utiliser des MIG pour créer et gérer des VM TPU pour les versions de TPU v5p et ultérieures. Vous pouvez créer des MIG avec une seule VM TPU, des VM TPU indépendantes (également appelées tranches à hôte unique) et des MIG avec des VM TPU interconnectées (également appelées tranches multi-hôtes).

Chaque tranche d'un MIG à hôte unique comporte au maximum une VM TPU. Les VM TPU du MIG ne sont pas connectées à l'aide de liens d'interconnexion entre puces (ICI).

Une tranche multi-hôtes contient plusieurs VM TPU interconnectées à l'aide de liens ICI.

MIG avec des tranches de TPU à hôte unique

La création d'un groupe d'instances géré (MIG) avec plusieurs instances TPU indépendantes est utile pour les charges de travail qui nécessitent plusieurs VM TPU individuelles, mais qui n'ont pas besoin d'être interconnectées avec des liens ICI pour les charges de travail distribuées. Exemple :

  • Diffusion d'inférences : chaque VM du MIG peut gérer indépendamment les requêtes d'inférence. Un MIG vous permet de mettre à l'échelle le nombre d'instances de diffusion en fonction de la demande et de les gérer en tant que groupe.
  • Tâches parallèles indépendantes : un MIG permet de gérer de nombreuses petites tâches d'entraînement indépendantes ou d'autres calculs pouvant s'exécuter en parallèle sur des VM TPU uniques.
  • Gestion : les MIG offrent les fonctionnalités suivantes :
    • Déploiement : définissez un modèle d'instance une seule fois et utilisez le MIG pour créer plusieurs VM TPU identiques.
    • Évolutivité : ajustez le nombre de VM TPU en redimensionnant le MIG.
    • Mises à jour progressives : mettez à jour le logiciel ou le type de machine sur toutes les VM de manière contrôlée.
  • Rentabilité : pour les tâches qui ne nécessitent pas la pleine puissance ni l'interconnectivité d'une grande tranche de TPU, l'utilisation de plusieurs tranches de TPU plus petites et indépendantes peut être plus rentable.

Pour en savoir plus, consultez Créer un MIG avec des tranches de TPU à hôte unique.

MIG avec une tranche multi-hôtes

Contrairement aux groupes de tranches de TPU indépendantes, un MIG configuré pour une tranche multi-hôtes gère un ensemble de VM TPU étroitement couplées via des liens ICI. Cela crée une seule tranche de TPU logique.

Avantages et performances

Les MIG pour les tranches de TPU multi-hôtes offrent l'échelle et les performances requises pour les charges de travail de machine learning intensives.

  • Entraînement distribué : l'entraînement des modèles de machine learning nécessite souvent plus de puissance TPU qu'une seule VM TPU ne peut en fournir. Les tranches de TPU plus grandes répartissent le calcul sur plusieurs puces et VM TPU, les liens ICI permettant une communication rapide entre elles. Ceci est essentiel pour les performances d'entraînement.
  • Bande passante d'interconnexion élevée : le réseau ICI offre une bande passante plus élevée et une latence plus faible entre les puces TPU de la tranche que le réseau de centre de données (DCN) standard. Ceci est essentiel pour les opérations synchrones courantes dans l'entraînement de grands modèles.

Opérations atomiques sur le cycle de vie

Pour garantir l'intégrité de la topologie interconnectée, le MIG gère l'ensemble de la tranche en tant qu'unité unique et indivisible tout au long de son cycle de vie.

  • Création : toutes les VM de la tranche sont provisionnées ensemble. Si la capacité interconnectée saine n'est pas suffisante pour l'ensemble de la topologie demandée, la tranche n'est pas créée.
  • Suppression : le MIG supprime l'ensemble de la tranche en tant qu'unité.
  • Redimensionnement : le redimensionnement est limité à la mise à l'échelle de 0 à la taille complète de la tranche, ou de la taille complète de la tranche à 0. Vous ne pouvez pas redimensionner partiellement une tranche multi-VM.

Configuration requise

La configuration d'un MIG multi-hôtes nécessite de définir à la fois la topologie d'interconnexion physique et les propriétés d'instance individuelles.

  • Règle de charge de travail : vous devez spécifier une règle de charge de travail avec le paramètre accelerator-topology (par exemple, 4x4, 8x8 ou 4x4x4). Cela configure le MIG pour traiter les instances comme une seule tranche interconnectée. Pour en savoir plus sur la topologie, consultez Architecture système.
  • Modèle d'instance : définit des propriétés telles que le type de machine, l'image disque et d'autres paramètres pour chaque VM de la tranche.

Disponibilité des tranches et reprise après sinistre

Lorsque vous utilisez des MIG pour créer une tranche de TPU multi-hôtes, le MIG gère automatiquement le processus de récupération de la tranche. En cas de défaillance d'un hôte ou d'une ICI, la tranche passe à l'état REACTIVATING. Toutes les VM de la tranche passeront à l'état REPAIRING, mais pas nécessairement en même temps. Le MIG redémarrera ensuite automatiquement les VM ensemble sur une capacité saine pour restaurer la tranche.

Toutefois, lorsque vous utilisez des VM Spot, la préemption entraîne l'arrêt des instances. Le MIG ne réactive pas automatiquement la tranche.

Reprise après sinistre suite à une interruption d'instance

Si vous supprimez ou arrêtez une instance TPU, ou si vous arrêtez une instance à partir du système d'exploitation, la tranche passe à l'état FAILED. Dans ce scénario, la tranche reste à l'état FAILED jusqu'à ce que vous la recréiez. Pour recréer la tranche, vous devez supprimer et recréer le MIG, ou redimensionner le MIG à 0, puis augmenter sa taille.

Pour en savoir plus sur les états des tranches, consultez Afficher l'état d'une tranche de TPU.

Limites

Les MIG avec des TPU présentent les limites suivantes :

  • Opérations sur le cycle de vie : vous ne pouvez pas arrêter, démarrer, reprendre ni suspendre les instances TPU. Pour modifier les configurations nécessitant un redémarrage ou pour arrêter d'être facturé, vous devez supprimer les instances.

  • Distribution des zones MIG régionales : vous devez définir la forme de distribution cible sur ANY_SINGLE_ZONE.

  • Mises à jour de configuration dans un MIG :

    • Vous ne pouvez pas mettre à jour un MIG qui forme une tranche de TPU multi-hôtes en raison de la topologie d'accélérateur définie.
    • Vous pouvez mettre à jour un MIG qui forme des tranches de TPU à hôte unique à l'aide des méthodes automatiques ou sélectives. Toutefois, les mises à jour des tranches de TPU à hôte unique ne sont pas compatibles avec l'action de redémarrage (RESTART). Si un redémarrage est nécessaire et que l'action la plus perturbatrice autorisée est le remplacement (REPLACE), le programme de mise à jour remplace l'instance. Sinon, la tentative de mise à jour échoue avec une erreur.

  • Pour un MIG qui forme une tranche de TPU multi-hôtes, les limites suivantes s'appliquent également :

    • Règle de taille cible : vous devez définir le mode de règle de taille cible sur BULK. Une fois ce mode défini, vous ne pouvez plus le modifier.

    • Taille cible : en mode groupé, vous pouvez définir la taille cible sur 0 ou le nombre d'instances nécessaires pour former la topologie d'accélérateur.

    • Règle de charge de travail : vous devez spécifier une règle de charge de travail dans laquelle la topologie d'accélérateur est définie. Une fois la règle de charge de travail définie, vous ne pouvez plus la modifier ni la supprimer du MIG.

  • Fonctionnalités non compatibles : les MIG avec des TPU ne sont pas compatibles avec les fonctionnalités suivantes :

Étape suivante