Présentation de TPU Cluster Director

TPU Cluster Director est conçu pour vous donner un contrôle direct basé sur les réservations sur vos accélérateurs d'IA Google Cloud . Pour Cloud TPU, les fonctionnalités de base de Cluster Director fournissent un niveau de service qui va au-delà d'une offre multitenant pour fournir une capacité de TPU physiquement isolée :

Capacité dédiée et physiquement colocalisée : vous bénéficiez de réservations de TPU denses et colocalisées, ce qui vous permet de contrôler entièrement votre matériel pour optimiser les performances réseau et la planification des charges de travail.
Maintenance et contrôle avancés : vous bénéficiez d'un contrôle précis sur les événements de maintenance. Vous pouvez cibler des VM, des cubes, des pods ou des réservations entières spécifiques, et gérer la séquence et le rythme de ces événements pour minimiser l'impact sur votre activité.
Planification tenant compte de la topologie : vous obtenez une vue complète de la topologie physique, de l'état et de l'utilisation du matériel, ce qui permet un placement plus intelligent des charges de travail axé sur les performances.

Les bases de Cluster Director sont entièrement intégrées à Google Kubernetes Engine. Cette intégration offre plusieurs fonctionnalités pour améliorer les charges de travail d'IA à grande échelle :

Efficacité, tolérance aux pannes et résilience améliorées : fournit un environnement robuste pour les tâches d'IA exigeantes.
Pools de nœuds et placement de charges de travail compatibles avec la topologie : les réservations denses colocalisées vous permettent de cibler des pods ou des cubes spécifiques. Cela permet une planification plus précise des charges de travail.

Avec les bases de Cluster Director sur GKE, vous bénéficiez d'une meilleure utilisation, de performances et d'une évolutivité accrues pour vos charges de travail, d'un débit utile et d'une fiabilité améliorés, ainsi que d'une observabilité complète de la capacité physique (des hôtes aux clusters GKE).

Les bases de TPU Cluster Director sur GKE sont disponibles via le nouveau mode de réservation "Toute la capacité".

Mode "Toute la capacité"

Par défaut, la capacité de TPU est proposée en mode "géré", dans lequel Google remplace automatiquement toute machine TPU défectueuse, mais retient une partie de votre capacité réservée pour s'assurer que vos tranches TPU disposent des ressources nécessaires pour redémarrer. Il existe un autre mode de capacité pour les TPU, appelé mode "Toute la capacité". Dans ce mode de capacité, vous bénéficiez d'une visibilité totale sur la topologie matérielle des TPU, l'état d'utilisation et l'état d'intégrité de votre capacité réservée. Vous avez également accès à l'intégralité de votre capacité réservée, mais vous êtes responsable de la gestion des défaillances et de la maintenance planifiée.

Voici les principales fonctionnalités du mode "Toute capacité" :

Contrôle et visibilité complets : vous avez un contrôle total sur votre capacité réservée et une visibilité complète sur l'état et la topologie de votre matériel. Cela signifie que vous pouvez voir toute la capacité disponible, y compris les réserves, et gérer directement les défaillances des machines.
Capacité dédiée : vous pouvez accéder à une capacité dédiée toujours disponible pour vos charges de travail d'IA. Avec une capacité totale et sans retenue, vous bénéficiez d'une prévisibilité accrue et d'une allocation plus élevée, ce qui signifie que vous pouvez utiliser chaque bit de votre capacité TPU réservée. Vous pouvez désormais utiliser votre capacité de réserve pour exécuter vos charges de travail de priorité inférieure.
Performances optimisées : le mode "Toute capacité" des TPU permet de colocaliser de manière dense de grandes ressources d'accélérateur avec une mise en réseau à latence ultra-faible, ce qui est essentiel pour les charges de travail ML et HPC à grande échelle et étroitement couplées. L'architecture est optimisée pour maximiser les performances des charges de travail d'entraînement et d'inférence.

Générations de TPU compatibles

Le mode et les fonctionnalités TPU "Toute capacité" sont disponibles sur Trillium (TPU v6e), TPU Ironwood (TPU v7x) et les futures générations de TPU. Le mode "Toute la capacité" des TPU n'est pas compatible avec les anciennes générations de TPU.

Terminologie de TPU Cluster Director

La topologie Cluster Director comporte quatre niveaux : cluster, bloc, sous-bloc et hôte. Un cluster est une unité de déploiement Google de capacité TPU physique en multiples de pods. Toute la capacité de TPU d'un cluster se trouve dans une seule zone. Une réservation TPU en mode "Toute la capacité" se trouve toujours dans un cluster. Pour les TPU, le reste des concepts de topologie correspond aux composants physiques, comme indiqué dans les tableaux suivants.

Trillium

Concepts de topologie	Trillium	Cœurs	Puces	Hôtes
---	Chip	1	1	N/A
Hôte	Hôte	8	8	1
Sous-bloc	Trillium Pod	256	256	32
Bloquer	Plusieurs Trillium Pods (jusqu'à 16) dans une réservation	Jusqu'à 4 096	Jusqu'à 4 096	Jusqu'à 512
---	Tranches autorisées dans un sous-bloc	1x1, 2x2, 2x4, 4x4, 4x8, 8x8, 8x16 et 16x16
---	Une réservation peut comporter plusieurs blocs, et chaque bloc peut comporter entre 1 et 16 Trillium Pods.

Pour en savoir plus sur les tailles de tranche Trillium, consultez Configurations compatibles avec Trillium.

Ironwood

Concepts de topologie	Ironwood	Cœurs	Puces	Hôtes
---	Chip	2	1	---
Hôte	Hôte	8	4	1
Sous-bloc	Cube	128	64	16
Bloquer	Plusieurs cubes Ironwood jusqu'à un pod complet		Jusqu'à 9 216 (144 cubes)	Jusqu'à 2 304
---	Exemples de tailles de segments autorisées dans un bloc	1x1x1, 2x2x1, 2x2x2, 2x4x4, 4x4x4, 8x8x8, 16x8x8, 16x16x8 et 12x24x24 (et bien d'autres)
---	Une réservation peut inclure un ou plusieurs cubes Ironwood, jusqu'à un pod Ironwood complet.

Pour en savoir plus sur les tailles de tranche Ironwood, consultez Configurations compatibles avec TPU7x.