Les groupes d'instances gérés (MIG) automatisent la création, la configuration et la gestion du cycle de vie d'une collection de VM. Les MIG offrent des avantages tels que la haute disponibilité grâce à l'autoréparation et aux déploiements régionaux (multizones), le scaling automatique pour gérer les charges variables et les mises à jour progressives simplifiées pour les applications. Pour en savoir plus, consultez Groupes d'instances gérés.
Vous pouvez utiliser des MIG pour créer et gérer des VM TPU pour les versions de TPU v5p et ultérieures. Vous pouvez créer des MIG avec une seule VM TPU, des VM TPU indépendantes (également appelées tranches à hôte unique) et des MIG avec des VM TPU interconnectées (également appelées tranches multi-hôtes).
Chaque tranche d'un MIG à hôte unique comporte au maximum une VM TPU. Les VM TPU du MIG ne sont pas connectées par des liens d'interconnexion entre puces (ICI).
Une tranche multi-hôte contient plusieurs VM TPU interconnectées avec des liens ICI.
Groupes d'instances gérés avec une seule instance de VM TPU
Vous pouvez créer et gérer une VM TPU individuelle à l'aide d'un MIG en définissant la taille cible du MIG sur un. Cette approche est utile si vous souhaitez utiliser des fonctionnalités de MIG telles que la réparation automatique pour une seule instance. Pour en savoir plus, consultez Créer un MIG avec des tranches TPU à hôte unique.
Groupes d'instances gérés avec des tranches de TPU à hôte unique
La création d'un groupe d'instances géré (MIG) avec plusieurs instances TPU indépendantes est avantageuse pour les charges de travail qui nécessitent plusieurs VM TPU individuelles, mais qui n'ont pas besoin qu'elles soient interconnectées avec des liens ICI pour les charges de travail distribuées. Exemple :
- Service d'inférence : chaque VM du MIG peut gérer indépendamment les requêtes d'inférence. Un MIG vous permet d'ajuster le nombre d'instances de diffusion en fonction de la demande et de les gérer en tant que groupe.
- Tâches indépendantes parallèles : un MIG permet de gérer de nombreuses petites tâches d'entraînement indépendantes ou d'autres calculs pouvant s'exécuter en parallèle sur des VM TPU uniques.
- Gestion : les MIG offrent les fonctionnalités suivantes :
- Déploiement : définissez un modèle d'instance une seule fois et utilisez le MIG pour créer plusieurs VM TPU identiques.
- Scalabilité : ajustez le nombre de VM TPU en redimensionnant le MIG.
- Mises à jour progressives : mettez à jour le logiciel ou le type de machine sur toutes les VM de manière contrôlée.
- Rentabilité : pour les tâches qui ne nécessitent pas toute la puissance ni l'interconnectivité d'une grande tranche de TPU, l'utilisation de plusieurs tranches de TPU plus petites et indépendantes peut être plus rentable.
Pour en savoir plus, consultez Créer un MIG avec des tranches TPU à hôte unique.
MIG avec une tranche multi-hôte
Contrairement aux groupes de tranches de TPU indépendantes, un MIG configuré pour une tranche multi-hôte gère un ensemble de VM TPU étroitement couplées par des liens ICI. Cela crée une seule tranche TPU logique.
Avantages et performances
Les MIG pour les tranches de TPU multihôtes offrent l'évolutivité et les performances requises pour les charges de travail de machine learning intensives.
- Entraînement distribué : l'entraînement des modèles de machine learning nécessite souvent plus de puissance de TPU qu'une seule VM TPU peut fournir. Les tranches TPU plus grandes répartissent le calcul sur de nombreuses puces et VM TPU, les liens ICI permettant une communication rapide entre elles. C'est essentiel pour les performances d'entraînement.
- Bande passante d'interconnexion élevée : le réseau ICI offre une bande passante plus élevée et une latence plus faible entre les puces TPU de la tranche que le réseau de centre de données (DCN) standard. C'est essentiel pour les opérations synchrones courantes dans l'entraînement de grands modèles.
Opérations atomiques du cycle de vie
Pour garantir l'intégrité de la topologie interconnectée, le MIG gère l'intégralité de la tranche comme une seule unité indivisible tout au long de son cycle de vie.
- Création : toutes les VM de la tranche sont provisionnées ensemble. Si la capacité interconnectée et opérationnelle n'est pas suffisante pour l'ensemble de la topologie demandée, la tranche n'est pas créée.
- Suppression : le MIG supprime l'intégralité du slice en tant qu'unité.
- Redimensionnement : le redimensionnement est limité à la mise à l'échelle de 0 à la taille complète du segment, ou de la taille complète du segment à 0. Vous ne pouvez pas redimensionner partiellement une tranche multi-VM.
Configuration requise
La configuration d'un MIG multihôte nécessite de définir à la fois la topologie d'interconnexion physique et les propriétés des instances individuelles.
- Règle de charge de travail : vous devez spécifier une règle de charge de travail avec le paramètre
accelerator-topology(par exemple, 4x4, 8x8 ou 4x4x4). Cela configure le MIG pour qu'il traite les instances comme une seule tranche interconnectée. Pour en savoir plus sur la topologie, consultez Topologie des TPU. - Modèle d'instance : définit des propriétés telles que le type de machine, l'image de disque et d'autres paramètres pour chaque VM de la tranche.
Disponibilité des tranches et reprise après échec
Lorsque vous utilisez des MIG pour créer une tranche de TPU multi-hôtes, le MIG gère automatiquement le processus de récupération de la tranche. En cas d'échec de l'hôte ou de l'ICI, la tranche passe à l'état REACTIVATING. Toutes les VM de la tranche passeront à l'état REPAIRING, mais pas nécessairement en même temps. Le MIG redémarrera ensuite automatiquement les VM ensemble sur une capacité opérationnelle pour restaurer le slice.
Toutefois, lorsque vous utilisez des VM Spot, la préemption entraîne l'arrêt des instances. Le MIG ne réactive pas automatiquement la tranche.
Reprise après échec suite à une interruption d'instance
Si vous supprimez ou arrêtez une instance TPU, ou si vous arrêtez une instance depuis le système d'exploitation, la tranche passe à l'état FAILED. Dans ce scénario, la tranche reste à l'état FAILED jusqu'à ce que vous la recréiez.
Pour recréer le slice, vous devez supprimer et recréer le MIG, ou redimensionner le MIG à 0, puis augmenter sa taille.
Pour en savoir plus sur les états des tranches, consultez Afficher l'état d'une tranche TPU.
Limites
Les sections suivantes expliquent les limites relatives à la création d'un MIG avec des VM TPU.
Limites des modèles d'instance
Les modèles d'instance qui spécifient un type de machine TPU présentent les limites suivantes :
Lorsque vous utilisez le modèle de provisionnement lié à une réservation, vous devez définir l'action d'arrêt de l'instance sur "Supprimer".
Les TPU ne peuvent utiliser que des réservations spécifiquement ciblées.
Vous ne pouvez pas spécifier de stratégie d'emplacement.
Lorsque vous utilisez le modèle d'instance pour créer un MIG pour un slice TPU multi-hôte, vous ne pouvez pas désactiver le redémarrage automatique en définissant le champ
scheduling.automaticRestartsurfalse. Cette limitation s'applique aux modèles de provisionnement standards, à démarrage flexible et liés à une réservation.
Limites pour les MIG
Les MIG avec TPU présentent les limites suivantes :
Opérations de cycle de vie : vous ne pouvez pas arrêter, démarrer, reprendre ni suspendre les instances de TPU. Pour modifier les configurations qui nécessitent un redémarrage ou pour ne plus être facturé, vous devez supprimer les instances.
Distribution des zones du MIG régional : vous devez définir la forme de distribution cible sur
ANY_SINGLE_ZONE.Mises à jour de configuration dans un MIG :
- Vous ne pouvez pas mettre à jour un MIG qui forme une tranche TPU multi-hôtes en raison de la topologie d'accélérateur définie.
- Vous pouvez mettre à jour un MIG qui forme des tranches de TPU à hôte unique à l'aide des méthodes automatique ou sélective.
Toutefois, les mises à jour pour les tranches de TPU à hôte unique ne sont pas compatibles avec l'action de redémarrage (
RESTART). Si un redémarrage est nécessaire et que l'action la plus perturbatrice autorisée est le remplacement (REPLACE), le programme de mise à jour remplace l'instance. Sinon, la tentative de mise à jour échoue et une erreur est générée.
Pour un MIG qui forme une tranche TPU multi-hôte, les limites suivantes s'appliquent également :
Règle de taille cible : vous devez définir le mode de la règle de taille cible sur
BULK. Une fois ce mode défini, vous ne pouvez plus le modifier.Taille cible : en mode groupé, vous pouvez définir la taille cible sur
0ou sur le nombre d'instances nécessaires pour former la topologie d'accélérateur.Règle de charge de travail : vous devez spécifier une règle de charge de travail dans laquelle la topologie de l'accélérateur est définie. Une fois que vous avez défini la règle de charge de travail, vous ne pouvez plus la modifier ni la supprimer du MIG.
Fonctionnalités non compatibles : les MIG avec TPU ne sont pas compatibles avec les fonctionnalités suivantes :
- Flexibilité des instances
- Requêtes de redimensionnement pour obtenir toutes les ressources à la fois
- Configuration avec état
- Pour un MIG qui forme une tranche TPU multihôte, les éléments suivants ne sont pas non plus compatibles :
Étapes suivantes
- Découvrez comment créer un MIG avec des tranches TPU à hôte unique.
- Découvrez comment créer un MIG avec une tranche TPU multihôte.