Présentation de TPU Cluster Director
TPU Cluster Director est conçu pour vous donner un contrôle direct, basé sur les réservations, sur vos accélérateurs d'IA Google Cloud . Pour Cloud TPU, les fonctionnalités de base de Cluster Director fournissent un nouveau niveau de service qui va au-delà d'une offre multitenant pour fournir une capacité de TPU physiquement isolée :
- Capacité dédiée et colocalisée physiquement : nous proposons désormais des réservations de TPU denses et colocalisées, ce qui vous permet de contrôler entièrement votre matériel pour optimiser les performances réseau et la planification des charges de travail.
- Maintenance et contrôle avancés : vous bénéficiez d'un contrôle précis sur les événements de maintenance. Vous pouvez cibler des VM, des cubes, des pods ou des réservations entières spécifiques, et gérer la séquence et le rythme de ces événements pour minimiser l'impact sur votre activité.
- Planification tenant compte de la topologie : vous obtenez une vue complète de la topologie physique, de l'état et de l'utilisation du matériel, ce qui permet un placement plus intelligent des charges de travail axé sur les performances.
Les bases de Cluster Director sont entièrement intégrées à Google Kubernetes Engine. Cette intégration offre plusieurs fonctionnalités pour améliorer les charges de travail d'IA à grande échelle :
- Efficacité, tolérance aux pannes et résilience améliorées : fournit un environnement robuste pour les tâches d'IA exigeantes.
- Pools de nœuds et placement des charges de travail tenant compte de la topologie - Les réservations denses colocalisées vous permettent de cibler des pods ou des cubes spécifiques. Cela permet une planification plus précise des charges de travail.
Avec les bases de Cluster Director sur GKE, vous bénéficiez d'une meilleure utilisation, de performances et d'une évolutivité accrues pour vos charges de travail, d'un bon débit et d'une fiabilité améliorés, ainsi que d'une observabilité complète de la capacité physique (des hôtes aux clusters GKE).
Les bases de TPU Cluster Director sur GKE sont disponibles via le nouveau mode de réservation "Toute capacité".
Mode "Toute la capacité"
Auparavant, la capacité de TPU était proposée en mode "géré", où Google remplaçait automatiquement toute machine TPU défectueuse, mais retenait une partie de votre capacité réservée pour s'assurer que vos tranches TPU disposaient des ressources nécessaires pour redémarrer. Google introduit un nouveau mode de capacité pour les TPU, appelé "All Capacity" (Toute la capacité). Dans ce mode de capacité, vous bénéficiez d'une visibilité totale sur la topologie matérielle des TPU, l'état d'utilisation et l'état d'intégrité de votre capacité réservée. Vous avez également accès à l'intégralité de votre capacité réservée, mais vous êtes responsable de la gestion des défaillances et de la maintenance planifiée.
Voici les principales fonctionnalités du mode Toutes capacités :
- Contrôle et visibilité complets : vous avez un contrôle total sur votre capacité réservée et une visibilité complète sur l'état et la topologie de votre matériel. Cela signifie que vous pouvez voir toute la capacité disponible, y compris les réserves, et gérer directement les défaillances des machines.
- Capacité dédiée : vous pouvez accéder à une capacité dédiée toujours disponible pour vos charges de travail d'IA. Avec une capacité totale et sans retenue, vous bénéficiez d'une prévisibilité accrue et d'une allocation plus élevée, ce qui signifie que vous pouvez utiliser chaque bit de votre capacité TPU réservée. Vous pouvez désormais utiliser votre capacité de réserve pour exécuter vos charges de travail de priorité inférieure.
- Performances optimisées : le mode "Toute capacité" des TPU permet de colocaliser de manière dense de grandes ressources d'accélérateur avec une mise en réseau à latence ultra-faible, ce qui est essentiel pour les charges de travail ML et HPC à grande échelle et étroitement couplées. L'architecture est optimisée pour des performances maximales dans les charges de travail d'entraînement et d'inférence.
Générations de TPU compatibles
Le mode et les fonctionnalités TPU "Toute capacité" sont disponibles sur Trillium (tpu v6e), TPU Ironwood (tpu v7x) et les futures générations de TPU. La prise en charge des anciennes générations de TPU n'est pas prévue.
Terminologie de Cluster Director pour les TPU
La topologie Cluster Director comporte quatre niveaux : Cluster, Block, Sub-block et Host. Un cluster est une unité de déploiement Google de capacité TPU physique en multiples de pods. Toute la capacité de TPU d'un cluster se trouve dans une seule zone. Une réservation de TPU en mode "Toute la capacité" se trouve toujours dans un cluster. Pour les TPU, le reste des concepts de topologie correspond aux composants physiques, comme indiqué dans les tableaux suivants.
Trillium
| Concepts de topologie | Trillium | Cœurs | Puces | Hôtes |
|---|---|---|---|---|
| --- | Chip | 1 | 1 | N/A |
| Hôte | Hôte | 8 | 8 | 1 |
| Sous-bloc | Trillium Pod | 256 | 256 | 32 |
| Bloquer | Plusieurs Trillium Pods (jusqu'à 16) dans une réservation | Jusqu'à 4 096 |
Jusqu'à 4 096 |
Jusqu'à 512 |
| --- | Tranches autorisées dans un sous-bloc | 1x1, 2x2, 2x4, 4x4, 4x8, 8x8, 8x16 et 16x16 | ||
| --- | Une réservation peut comporter plusieurs blocs, et chaque bloc peut comporter entre 1 et 16 Trillium Pods. | |||
Pour en savoir plus sur la taille des tranches Trillium, consultez Configurations compatibles avec Trillium.
Ironwood
| Concepts de topologie | Ironwood | Cœurs | Puces | Hôtes |
|---|---|---|---|---|
| --- | Chip | 2 | 1 | --- |
| Hôte | Hôte | 8 | 4 | 1 |
| SubBlock | Cube | 128 | 64 | 16 |
| Bloquer | Plusieurs cubes Ironwood jusqu'à un pod complet | Jusqu'à 9 216 (144 cubes) | Jusqu'à 2 304 | |
| --- | Exemples de tranches autorisées dans un bloc | 1x1x1, 2x2x1, 2x2x2, 2x4x4, 4x4x4, 8x8x8, 16x8x8, 16x16x8 et 12x24x24 (et bien d'autres) | ||
| --- | Une réservation peut inclure un ou plusieurs cubes Ironwood, jusqu'à un pod Ironwood complet. |
Pour en savoir plus sur les tailles de tranche Ironwood, consultez Configurations compatibles avec TPUv7x.