Guida al rendimento di Cloud TPU

Il primo passaggio per risolvere i problemi di prestazioni della TPU è profilare il modello. Per saperne di più sull'acquisizione di un profilo di rendimento, consulta la sezione Profilazione del modello su Cloud TPU.

Prestazioni del modello TPU

Questa sezione descrive i problemi generali che possono ridurre il rendimento del modello e come risolverli.

Modelli vincolati all'input

Le TPU eseguono i calcoli molto velocemente. Per assicurarti che la TPU non sia inattiva, è importante che venga caricato un flusso costante di dati. La modalità dipende da come carichi ed esegui il pre-elaborazione del set di dati. Ad esempio, puoi leggere i file di dati in parallelo utilizzando tf.data.TFRecordset() e il parametro num_parallel_reads.

Dimensione batch ridotta a causa dello sharding

Il runtime TPU suddivide un batch tra tutti gli 8 core di un dispositivo TPU (ad esempio v2-8 o v3-8). Se specifichi una dimensione del batch globale di 128, ogni core riceve una dimensione del batch di 16 (128 / 8).

Per un utilizzo ottimale della memoria, utilizza la dimensione batch più grande che rientra nella memoria TPU. Ogni core TPU utilizza registri vettoriali bidimensionali 8 x 128 per l'elaborazione delle moltiplicazioni di matrici. In generale, la dimensione del batch deve essere divisibile per 8 o 128.

Ottimizzazione della gestione della memoria

Puoi utilizzare le variabili di ambiente correlate alla memoria per ottimizzare i comportamenti di runtime di basso livello.

`TPU_PREMAPPED_BUFFER_SIZE`

TPU_PREMAPPED_BUFFER_SIZE imposta le dimensioni del buffer di memoria host (in byte) che viene pre-mappato e bloccato per l'utilizzo da parte del runtime TPU per i trasferimenti di dati (ad esempio, DMA). Il valore predefinito è 4294967296 byte. Il valore deve essere un multiplo di 2^12 (4 KB = 4 * 1024 byte = 4096 = 2^12).

I seguenti esempi sono valori TPU_PRE_MAPPED_BUFFER_SIZE validi.

17179869184 = 2^34 = 2^22 * 2^12 (2^22 4KB pages will be premapped).
40000000000 = 5^10 * 2^12 = (5^10 4KB pages will be premapped).

L'aumento di questa dimensione può potenzialmente migliorare le prestazioni di trasferimento dei dati tra l'host e il dispositivo TPU, in particolare per i carichi di lavoro con tensori di grandi dimensioni o comunicazioni host-dispositivo frequenti. Tuttavia, aumenta anche la quantità di memoria host bloccata, riducendo la memoria disponibile per altri processi.

Risolvere i problemi di memoria

Se la regione buffer pre-mappata non è abbastanza grande per allocare memoria durante l'esecuzione del programma, il workload non andrà a buon fine e restituirà un errore RESOURCE_EXHAUSTED simile a:

"Allocating buffer from premmaped region failed with: RESOURCE_EXHAUSTED: Attempting to allocate allocation_size. Non è stato possibile. Ci sono available_size posti liberi."

Se il buffer è eccessivamente grande, l'inizializzazione della TPU può richiedere molto più tempo (potenzialmente più di 15 secondi), facendo sembrare che la TPU sia bloccata.

Per diagnosticare il problema, esamina i log di runtime della TPU. Questi log descrivono in dettaglio le operazioni eseguite, inclusa la pre-mappatura dei buffer. Puoi trovare i log in /tmp/tpu_logs/tpu_driver.INFO o stamparli direttamente nella console impostando la variabile di ambiente TPU_STDERR_LOG_LEVEL=0. Questa impostazione genererà un output simile al seguente:

I0604 12:45:24.926233   62136 tpu_hal.cc:214] Starting premapped memory manager initialization...
I0604 12:45:29.411218   62136 system.cc:1059] tpu::System initialized, current host id: 0, logical device ids: 0
I0604 12:45:29.411244   61600 tfrt_tpu_system_state.cc:216] CreateTpuSystemState: TPU initialization is successful and it took 5.583190661s
I0604 12:45:29.411267   61600 tfrt_tpu_system_state.cc:220] CreateTpuSystemState: using TPU host premapped buffer of size: 4294967296

Questo output indica il tempo necessario per inizializzare la TPU e le dimensioni del buffer pre-mappato.

Impostare la dimensione del buffer

Se il buffer pre-mappato è troppo piccolo o troppo grande, puoi impostare manualmente la dimensione del buffer utilizzando le seguenti variabili di ambiente.

TPU_PREMAPPED_BUFFER_SIZE: imposta la dimensione totale (in byte) della regione buffer pre-mappata.
TPU_PREMAPPED_BUFFER_TRANSFER_THRESHOLD_BYTES: imposta la dimensione massima di un singolo buffer che può essere allocato dalla regione pre-mappata.

Ad esempio, puoi:

export TPU_PREMAPPED_BUFFER_SIZE=4294967296

per impostare la dimensione del buffer e:

export TPU_PREMAPPED_BUFFER_TRANSFER_THRESHOLD_BYTES

per attivarlo.

Questa esportazione imposta le dimensioni predefinite.

Modifica il valore di TPU_PREMAPPED_BUFFER_SIZE se sospetti che il trasferimento dei dati dal dispositivo host sia un collo di bottiglia. Monitora l'utilizzo della memoria host e le prestazioni del modello per trovare un equilibrio ottimale. Il valore predefinito è in genere sufficiente per la maggior parte dei casi d'uso.

Configurazione tcmalloc

La libreria tcmalloc viene utilizzata per impostazione predefinita sulle VM Cloud TPU per migliorare le prestazioni dei modelli con allocazioni di memoria frequenti e di grandi dimensioni. Questa impostazione viene configurata tramite la variabile di ambiente LD_PRELOAD.

Tuttavia, per alcuni workload (ad esempio DLRM con allocazioni di tabelle di incorporamento molto grandi), tcmalloc può causare un rallentamento. In questi casi, puoi ripristinare la funzione malloc standard annullando l'impostazione della variabile LD_PRELOAD nella sessione shell prima di eseguire lo script di addestramento:

unset LD_PRELOAD

Ottimizzazioni delle prestazioni di rete

Le sezioni seguenti descrivono come ottimizzare le prestazioni della rete configurando l'unità massima di trasmissione (MTU) e utilizzando più NIC per gli ambienti multislice.

Configura MTU

Per ottenere le migliori prestazioni di rete, utilizza una rete con MTU (unità massima di trasmissione) di 8896.

Per impostazione predefinita, un Virtual Private Cloud (VPC) fornisce solo un MTU di 1460 byte, che offre prestazioni di rete non ottimali. Puoi impostare l'MTU di una rete VPC su qualsiasi valore compreso tra 1300 e 8896 byte (inclusi). Le dimensioni MTU personalizzate comuni sono 1500 byte (Ethernet standard) o 8896 byte (il massimo possibile). Per maggiori informazioni, consulta Dimensioni MTU valide per le reti VPC.

Per saperne di più su come modificare l'impostazione MTU per una rete esistente o predefinita, consulta Modificare l'impostazione MTU di una rete VPC.

Utilizzare l'opzione multi-NIC per Multislice

Quando si addestrano modelli di grandi dimensioni in ambienti Multislice costituiti da migliaia di chip TPU, la comunicazione tra slice sulla rete di data center (DCN) può rappresentare un collo di bottiglia. Per migliorare la larghezza di banda di rete per i workload associati alla rete, puoi utilizzare più NIC per aumentare il numero di interfacce di rete sulle VM TPU. Quando utilizzi più NIC, a ogni VM TPU vengono allocate interfacce di rete aggiuntive, ognuna connessa a una rete VPC unica, aumentando la velocità effettiva complessiva della rete. Le NIC aggiuntive devono trovarsi in intervalli IP reciprocamente esclusivi.

Per ulteriori informazioni sull'attivazione del networking multiplo quando utilizzi Google Kubernetes Engine (GKE), consulta Migliorare le prestazioni di rete senza hostNetwork su TPU Trillium o Ironwood (TPU7x). Per un esempio di utilizzo di più NIC con XPK, vedi Crea un cluster con supporto multi-NIC utilizzando XPK.

Ottimizzazioni del compilatore XLA

XLA è un compilatore per il machine learning in grado di produrre file binari per TPU, CPU, GPU e altre piattaforme. Sebbene XLA faccia parte del codebase TensorFlow standard, può essere utilizzato anche su modelli PyTorch e JAX. I modelli per Cloud TPU vengono tradotti in un grafico XLA, che XLA compila in un eseguibile TPU. Per saperne di più su XLA, consulta XLA: Optimizing Compiler for Machine Learning.

Spaziatura interna

Per utilizzare la memoria TPU in modo efficiente, struttura i dati in modo che possano essere suddivisi in blocchi di 128 x 8. Quando i dati per un calcolo della matrice non riempiono un intero blocco 128 x 8, il compilatore XLA esegue il padding dei tensori. L'imbottitura presenta due svantaggi:

I tensori con padding utilizzano in modo insufficiente il core della TPU.
Il padding aumenta la quantità di spazio di archiviazione della memoria on-chip necessaria per un tensore e può causare un errore di esaurimento della memoria.

Il padding viene eseguito automaticamente dal compilatore XLA quando necessario, ma puoi determinare la quantità di padding eseguita utilizzando lo strumento di visualizzazione della memoria. Puoi evitare il padding scegliendo dimensioni dei tensori adatte alla TPU.

Dimensioni del tensore

Per raggiungere il picco di FLOP, le dimensioni della moltiplicazione della matrice devono essere maggiori della dimensione MXU per la versione TPU che stai utilizzando. La dimensione MXU è 256 x 256 per v6e e 128 x 128 per le versioni precedenti alla v6e. Per maggiori informazioni, consulta la sezione Architettura di sistema di Cloud TPU.

Dimensione del batch

Il compilatore XLA arrotonda per eccesso le dimensioni dei tensori archiviati nella memoria HBM della TPU per eseguire i calcoli in modo più efficiente. Questo riempimento avviene in modo trasparente a livello hardware e non influisce sui risultati. Tuttavia, in alcuni casi il padding può comportare un aumento significativo dell'utilizzo della memoria e del tempo di esecuzione.

Il runtime TPU dispone i tensori in memoria per massimizzare l'efficienza di calcolo e ridurre al minimo il padding. Per ridurre al minimo l'overhead della memoria e massimizzare l'efficienza computazionale, una delle seguenti condizioni deve essere vera:

La dimensione totale del batch deve essere un multiplo di 64 (8 per core TPU) e le dimensioni delle funzionalità devono essere un multiplo di 128.
La dimensione totale del batch deve essere un multiplo di 1024 (128 per core TPU) e le dimensioni delle caratteristiche devono essere un multiplo di 8.

L'utilizzo di una dimensione batch di 1024 e di dimensioni delle funzionalità che siano un multiplo di 128 consente di ottenere la massima efficienza, anche se ciò potrebbe non essere possibile per tutti i modelli.

Fusione

Fusion è una tecnica generale utilizzata dal compilatore XLA per ottimizzare i programmi. Un'operazione fusa è la combinazione di più operazioni costituenti che devono essere eseguite in combinazione.

Ad esempio, considera la seguente serie di operazioni:

    tmp = tf.add(x, y)
    result = tf.multiply(tmp, z)

Questo codice è approssimativamente equivalente al seguente pseudocodice:

    for (i = 0; i < element_count; i++) {
      tmp[i] = x[i] + y[i];
    }

    for (i = 0; i < element_count; i++) {
      result[i] = tmp[i] * z[i];
    }

Con la fusione, gli accessi all'array avvengono contemporaneamente:

    for (i = 0; i < element_count; i++) {
      result[i] = (x[i] + y[i]) * z[i];
    }

In questo esempio, il numero di round trip della memoria viene ridotto e XLA non deve allocare spazio per "tmp".

La fusione è un'ottimizzazione fondamentale e offre diversi vantaggi a Cloud TPU:

Riduce i trasferimenti di memoria eliminando la necessità di archiviare i risultati intermedi nella memoria principale, che è lenta.
Consente un maggiore utilizzo delle unità hardware che altrimenti non verrebbero utilizzate.
Può ridurre l'utilizzo della memoria di un modello, poiché è necessario che meno buffer siano attivi contemporaneamente.

Trasmissione

La trasmissione si verifica implicitamente quando vengono combinati due tensori con forme diverse, ma compatibili.

Ad esempio, tf.add(vector, matrix) richiede che il vettore venga trasmesso alla forma della matrice. Il risultato dell'operazione ha la stessa forma della matrice. Per maggiori dettagli, consulta la guida agli array di trasmissione.

Anche se le trasmissioni possono spesso essere unite ai loro consumatori, forzarne una può comportare prestazioni scadenti e un maggiore utilizzo della memoria.

Nell'esempio seguente, la trasmissione implicita nell'aggiunta di un vettore e di una matrice non può essere unita ad argmax, con conseguente trasmissione materializzata:

`tf.argmax(tf.add(vector, zero_matrix), axis=0)`

Suggerimenti sulle prestazioni per l'architettura dual-chiplet Ironwood

Il modello di programmazione Ironwood consente di accedere a due dispositivi TPU anziché all'architettura a singolo core logico (noto anche come MegaCore) utilizzata nelle generazioni precedenti (TPU v4 e v5p). Questa modifica migliora l'efficacia in termini di costi e l'efficienza della produzione del chip. Sebbene ciò rappresenti un cambiamento architettonico, il nuovo design garantisce che tu possa riutilizzare i modelli software esistenti con modifiche minime.

Per ottenere il miglior rendimento con l'architettura dual-chiplet, ti consigliamo i seguenti approcci:

Utilizza il parallelismo dei tensori tra i chiplet: l'interfaccia D2D a larghezza di banda elevata è progettata per un parallelismo dei tensori efficiente. Ti consigliamo di dividere i tensori tra i due dispositivi on-chip.
Utilizza collettivi gerarchici:per massimizzare l'efficienza della comunicazione, sfrutta la gerarchia di rete a due livelli: il collegamento D2D ultraveloce tra i chiplet on-chip e i collegamenti ICI veloci all'interno di una sezione. Quando utilizzi il parallelismo automatico con SPMD (single program, multiple data), il compilatore XLA gestisce questa operazione per te generando automaticamente operazioni collettive gerarchiche. Quando partizioni manualmente il modello, devi anche progettare i pattern di comunicazione in base a questa gerarchia. Dai la priorità alla comunicazione tra i due dispositivi sullo stesso chip prima di comunicare con i dispositivi su altri chip.
Sovrapponi la comunicazione al calcolo:per massimizzare l'utilizzo dell'hardware, scarica le operazioni di comunicazione collettiva, come all-reduce, su SparseCores. Queste operazioni, che non sono vincolate all'unità di moltiplicazione matriciale (MXU), possono essere eseguite contemporaneamente sugli SparseCore mentre i TensorCore continuano il calcolo. Questa tecnica può recuperare alcuni dei vantaggi in termini di prestazioni inerenti alle operazioni combinate nella precedente architettura MegaCore.
Offload a SparseCore per gli incorporamenti:nella progettazione a doppio chiplet, le tabelle di incorporamento potrebbero essere partizionate nella HBM di entrambi i chiplet. Per evitare il peggioramento delle prestazioni dovuto alla mancanza di condivisione della memoria, scarica le operazioni di raccolta degli incorporamenti in SparseCore. Questa strategia utilizza l'interconnessione D2D ad alta velocità per trasferire in modo efficiente i vettori di incorporamento tra i chiplet. Per saperne di più su SparseCore e sui modelli di incorporamento, consulta Un'analisi approfondita di SparseCore per i modelli di incorporamento di grandi dimensioni (LEM).

Per saperne di più sull'architettura Ironwood in TPU7x, consulta TPU7x (Ironwood).