Présentation de TPU Cluster Director
TPU Cluster Director est conçu pour vous donner un contrôle direct basé sur les réservations sur vos accélérateurs d'IA Google Cloud . Pour Cloud TPU, les fonctionnalités de base de Cluster Director fournissent un niveau de service qui va au-delà d'une offre multitenant pour fournir une capacité de TPU physiquement isolée :
- Capacité dédiée et physiquement colocalisée : vous bénéficiez de réservations de TPU denses et colocalisées, ce qui vous permet de contrôler entièrement votre matériel pour optimiser les performances réseau et la planification des charges de travail.
- Maintenance et contrôle avancés : vous bénéficiez d'un contrôle précis sur les événements de maintenance. Vous pouvez cibler des VM, des cubes, des pods ou des réservations entières spécifiques, et gérer la séquence et le rythme de ces événements pour minimiser l'impact sur votre activité.
- Planification tenant compte de la topologie : vous obtenez une vue complète de la topologie physique, de l'état et de l'utilisation du matériel, ce qui permet un placement plus intelligent des charges de travail axé sur les performances.
Les bases de Cluster Director sont entièrement intégrées à Google Kubernetes Engine. Cette intégration offre plusieurs fonctionnalités pour améliorer les charges de travail d'IA à grande échelle :
- Efficacité, tolérance aux pannes et résilience améliorées : fournit un environnement robuste pour les tâches d'IA exigeantes.
- Pools de nœuds et placement de charges de travail compatibles avec la topologie : les réservations denses colocalisées vous permettent de cibler des pods ou des cubes spécifiques. Cela permet une planification plus précise des charges de travail.
Avec les bases de Cluster Director sur GKE, vous bénéficiez d'une meilleure utilisation, de performances et d'une évolutivité accrues pour vos charges de travail, d'un débit utile et d'une fiabilité améliorés, ainsi que d'une observabilité complète de la capacité physique (des hôtes aux clusters GKE).
Les bases de TPU Cluster Director sur GKE sont disponibles via le nouveau mode de réservation "Toute la capacité".
Mode "Toute la capacité"
Par défaut, la capacité de TPU est proposée en mode "géré", dans lequel Google remplace automatiquement toute machine TPU défectueuse, mais retient une partie de votre capacité réservée pour s'assurer que vos tranches TPU disposent des ressources nécessaires pour redémarrer. Il existe un autre mode de capacité pour les TPU, appelé mode "Toute la capacité". Dans ce mode de capacité, vous bénéficiez d'une visibilité totale sur la topologie matérielle des TPU, l'état d'utilisation et l'état d'intégrité de votre capacité réservée. Vous avez également accès à l'intégralité de votre capacité réservée, mais vous êtes responsable de la gestion des défaillances et de la maintenance planifiée.
Voici les principales fonctionnalités du mode "Toute capacité" :
- Contrôle et visibilité complets : vous avez un contrôle total sur votre capacité réservée et une visibilité complète sur l'état et la topologie de votre matériel. Cela signifie que vous pouvez voir toute la capacité disponible, y compris les réserves, et gérer directement les défaillances des machines.
- Capacité dédiée : vous pouvez accéder à une capacité dédiée toujours disponible pour vos charges de travail d'IA. Avec une capacité totale et sans retenue, vous bénéficiez d'une prévisibilité accrue et d'une allocation plus élevée, ce qui signifie que vous pouvez utiliser chaque bit de votre capacité TPU réservée. Vous pouvez désormais utiliser votre capacité de réserve pour exécuter vos charges de travail de priorité inférieure.
- Performances optimisées : le mode "Toute capacité" des TPU permet de colocaliser de manière dense de grandes ressources d'accélérateur avec une mise en réseau à latence ultra-faible, ce qui est essentiel pour les charges de travail ML et HPC à grande échelle et étroitement couplées. L'architecture est optimisée pour maximiser les performances des charges de travail d'entraînement et d'inférence.
Générations de TPU compatibles
Le mode et les fonctionnalités TPU "Toute capacité" sont disponibles sur Trillium (TPU v6e), TPU Ironwood (TPU v7x) et les futures générations de TPU. Le mode "Toute la capacité" des TPU n'est pas compatible avec les anciennes générations de TPU.
Terminologie de TPU Cluster Director
La topologie Cluster Director comporte quatre niveaux : cluster, bloc, sous-bloc et hôte. Un cluster est une unité de déploiement Google de capacité TPU physique en multiples de pods. Toute la capacité de TPU d'un cluster se trouve dans une seule zone. Une réservation TPU en mode "Toute la capacité" se trouve toujours dans un cluster. Pour les TPU, le reste des concepts de topologie correspond aux composants physiques, comme indiqué dans les tableaux suivants.
Trillium
| Concepts de topologie | Trillium | Cœurs | Puces | Hôtes |
|---|---|---|---|---|
| --- | Chip | 1 | 1 | N/A |
| Hôte | Hôte | 8 | 8 | 1 |
| Sous-bloc | Trillium Pod | 256 | 256 | 32 |
| Bloquer | Plusieurs Trillium Pods (jusqu'à 16) dans une réservation | Jusqu'à 4 096 |
Jusqu'à 4 096 |
Jusqu'à 512 |
| --- | Tranches autorisées dans un sous-bloc | 1x1, 2x2, 2x4, 4x4, 4x8, 8x8, 8x16 et 16x16 | ||
| --- | Une réservation peut comporter plusieurs blocs, et chaque bloc peut comporter entre 1 et 16 Trillium Pods. | |||
Pour en savoir plus sur les tailles de tranche Trillium, consultez Configurations compatibles avec Trillium.
Ironwood
| Concepts de topologie | Ironwood | Cœurs | Puces | Hôtes |
|---|---|---|---|---|
| --- | Chip | 2 | 1 | --- |
| Hôte | Hôte | 8 | 4 | 1 |
| Sous-bloc | Cube | 128 | 64 | 16 |
| Bloquer | Plusieurs cubes Ironwood jusqu'à un pod complet | Jusqu'à 9 216 (144 cubes) | Jusqu'à 2 304 | |
| --- | Exemples de tailles de segments autorisées dans un bloc | 1x1x1, 2x2x1, 2x2x2, 2x4x4, 4x4x4, 8x8x8, 16x8x8, 16x16x8 et 12x24x24 (et bien d'autres) | ||
| --- | Une réservation peut inclure un ou plusieurs cubes Ironwood, jusqu'à un pod Ironwood complet. |
Pour en savoir plus sur les tailles de tranche Ironwood, consultez Configurations compatibles avec TPU7x.