Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

TPU v6e

Ce document décrit l'architecture et les configurations compatibles de Cloud TPU v6e (Trillium). Sur toutes les surfaces techniques, telles que l'API et les journaux, et tout au long de ce document, Trillium sera désigné par le terme "v6e".

Avec une empreinte de 256 puces par pod, v6e présente de nombreuses similitudes avec v5e. Ce système est optimisé pour l'entraînement, l'affinage et la mise en service des transformateurs, des conversions de texte en image et des réseaux de neurones convolutifs (CNN).

Architecture du système

Chaque puce v6e contient un TensorCore. Chaque TensorCore comporte deux unités de multiplication matricielle (MXU), une unité vectorielle et une unité scalaire. Le tableau suivant présente les principales spécifications et leurs valeurs pour les TPU v6e.

Spécification	Valeurs
Performances/coût total de possession (TCO) (attendu)	1
Puissance de calcul maximale par puce (bf16)	918 TFLOPS
Puissance de calcul maximale par puce (Int8)	1 836 TOPS
Capacité de mémoire HBM par puce	32 Go
Bande passante HBM par puce	1 638 Gbit/s
Bande passante d'interconnexion bidirectionnelle entre puces (ICI) (par puce)	800 Gbit/s
Ports ICI par puce	4
DRAM par hôte	1 536 Gio
Puces par hôte	8
Taille du pod TPU	256 puces
Topologie d'interconnexion	Tore 2D
Puissance de calcul maximale BF16 par pod	234,9 PFLOPS
Bande passante All-Reduce par pod	102,4 To/s
Bande passante bissectionnelle par pod	3,2 To/s
Configuration des cartes d'interface réseau par hôte	4 cartes d'interface réseau 200 Gbit/s
Bande passante réseau de centre de données par pod	25,6 Tbit/s
Fonctionnalités spéciales	SparseCore

Configurations compatibles

Le tableau suivant présente les formes de tranche 2D compatibles avec v6e :

Topologie	Puces TPU	Hôtes	VM	Type de machine	Champ d'application
1x1	1	1/8	1	`ct6e-standard-1t`	Sous-hôte
2x2	4	1/2	1	`ct6e-standard-4t`	Sous-hôte
2x4	8	1	1	`ct6e-standard-8t`	Un seul hôte
2x4	8	1	2	`ct6e-standard-4t`	Hôte multiple
4x4	16	2	4	`ct6e-standard-4t`	Hôte multiple
4x8	32	4	8	`ct6e-standard-4t`	Hôte multiple
8x8	64	8	16	`ct6e-standard-4t`	Hôte multiple
8x16	128	16	32	`ct6e-standard-4t`	Hôte multiple
16x16	256	32	64	`ct6e-standard-4t`	Multi-hôtes

Les tranches avec huit puces (v6e-8) associées à une seule VM sont optimisées pour l'inférence, ce qui permet d'utiliser les huit puces dans une même charge de travail de diffusion. Vous pouvez effectuer une inférence multi-hôtes à l'aide de Pathways on Cloud. Pour en savoir plus, consultez Effectuer une inférence multi-hôtes à l'aide de Pathways.

Pour en savoir plus sur le nombre de VM pour chaque topologie, consultez Types de VM.

Types de VM

Chaque VM TPU v6e peut contenir une, quatre ou huit puces. Les tranches de quatre puces ou moins ont le même nœud NUMA (Non-Uniform Memory Access). Pour en savoir plus sur les nœuds NUMA, consultez Non-uniform memory access sur Wikipédia.

Diagramme d'un hôte v6e

Les tranches v6e sont créées à l'aide de VM à demi-hôte, chacune avec quatre puces TPU. Il existe deux exceptions à cette règle :

v6e-1 : VM avec une seule puce, principalement destinée aux tests
v6e-8 : VM à hôte complet optimisée pour un cas d'utilisation d'inférence avec l'intégralité des huit puces associées à une seule VM.

Le tableau suivant présente une comparaison des types de VM TPU v6e :

Type de VM	Nombre de processeurs virtuels par VM	RAM (Go) par VM	Nombre de nœuds NUMA par VM
VM à une seule puce	44	176	1
VM à quatre puces	180	720	1
VM à huit puces	360	1440	2

Étape suivante

Exécuter l'entraînement et l'inférence à l'aide de TPU v6e