Zone AI

Le zone AI sono zone specializzate utilizzate per i workload di addestramento e inferenza di intelligenza artificiale e machine learning (AI e ML). Forniscono una capacità significativa dell'acceleratore ML (GPU e TPU).

All'interno di una regione, le zone AI si trovano geograficamente lontano dalle zone standard (non AI). La figura seguente mostra un esempio di zona AI (us-central1-ai1a) situata più lontano rispetto alle zone standard nella regione us-central1.

Zona genitori

Ogni zona AI è associata a una zona standard nella regione, denominata zona principale. Una zona principale è una zona standard con lo stesso suffisso della zona AI. Ad esempio, nel diagramma, us-central1-a è la zona principale di us-central1-ai1a. Condividono pianificazioni degli aggiornamenti software e a volte l'infrastruttura. Ciò significa che eventuali problemi di software o infrastruttura che interessano una zona principale potrebbero interessare anche la zona AI. Quando progetti le tue soluzioni ad alta disponibilità, esamina le considerazioni sull'alta disponibilità (HA) per tenere conto della dipendenza dalla zona principale.

Quando utilizzare le zone AI

Le zone AI sono ottimizzate per i workload AI e ML. Utilizza le seguenti indicazioni per determinare quali dei tuoi workload sono più adatti alle zone AI e quali sono più adatti alle zone standard.

Consigliato per:

  • Addestramento su larga scala:ideale per carichi di lavoro di addestramento su larga scala, come l'addestramento di modelli linguistici di grandi dimensioni (LLM) e di modelli di base, grazie alla disponibilità di un gran numero di acceleratori.

  • Addestramento, ottimizzazione, inferenza collettiva e riaddestramento su piccola scala: le zone AI offrono prestazioni ottimali per i carichi di lavoro che richiedono una capacità di acceleratore sostanziale.

  • Inferenza ML in tempo reale:le zone AI supportano i workload di inferenza in tempo reale. Le prestazioni dipendono dalla progettazione dell'applicazione e dai requisiti di latenza del modello, soprattutto se il carico di lavoro richiede richieste di andata e ritorno alla regione principale.

Non consigliato per:

  • Workload non ML:poiché le zone AI non offrono tutti i servizi Google Cloud localmente, ti consigliamo di eseguire i workload non ML nelle zone standard.

Accedere ai servizi da una zona AI

Puoi accedere a tutti i prodotti Google Cloud in una regione Google Cloud dalla relativa zona AI. Tuttavia, l'accesso ai servizi in una regione Google Cloud da una zona AI può aumentare la latenza di rete, poiché la zona AI è fisicamente separata dalle posizioni delle zone standard della regione.

Prodotti specifici supportano la creazione o l'accesso a risorse zonali localmente in una zona AI. Per ulteriori informazioni su questi servizi, consulta la tabella seguente:

Prodotto Descrizione
Google Kubernetes Engine (GKE) Configurazione per l'utilizzo delle zone AI nei cluster GKE, inclusa la configurazione tramite ComputeClasses, il provisioning automatico dei nodi e i node pool GKE Standard.

Utilizzo delle zone AI in GKE
Cloud Storage Configurazione dell'archiviazione di oggetti per i carichi di lavoro nelle zone AI, inclusa l'archiviazione zonale per massimizzare le prestazioni durante i job attivi e l'archiviazione permanente per i set di dati e i checkpoint del modello.

Utilizzare le zone AI con Cloud Storage
Compute Engine Metodi per identificare le zone AI disponibili utilizzando la console, Google Cloud CLI e l'API REST, incluso come filtrare in base alla convenzione di denominazione, al tipo di acceleratore o al tipo di macchina

Trovare le zone AI disponibili

Località

Le zone AI sono disponibili nelle seguenti località:

Zona AI Posizione della zona AI Google Cloud region Google Cloud region location Zona genitori
us-south1-ai1b Austin, Texas, Nord America us-south1 Dallas, Texas, Nord America us-south1-b
us-central1-ai1a Lincoln, Nebraska, Nord America us-central1 Council Bluffs, Iowa, Nord America us-central1-a

Utilizzare le zone AI

Le zone AI sono accessibili tramite la console Google Cloud , Google Cloud CLI o REST. Tuttavia, quando utilizzi la console Google Cloud per creare le VM, devi selezionare manualmente una zona AI. Non viene selezionata automaticamente, come avviene per le zone standard. Per utilizzare le zone AI con le seguenti funzionalità, devi selezionare esplicitamente una zona AI durante la configurazione di queste risorse.

  • Alcune funzionalità di Compute Engine e GKE: le zone AI non vengono selezionate automaticamente in alcune funzionalità regionali di Compute Engine e GKE (ad esempio, gruppi di istanze gestite regionali, cluster GKE regionali). Per saperne di più su GKE, consulta la documentazione di GKE.

  • Limitazioni dei carichi di lavoro non accelerati: quando esegui VM solo CPU nelle zone AI, tieni presente le limitazioni imposte da Compute Engine. Questi potrebbero includere requisiti per i rapporti GPU:CPU e le prenotazioni.

  • Vertex AI: i prodotti regionali Vertex AI basati su GKE devono configurare GKE in modo da includere le zone AI nei cluster regionali. Non è necessario attivare Vertex AI. Vertex AI gestisce questa configurazione.

  • Google Cloud API Service Metadata Locations: devi attivare il flag --extraLocationTypes quando utilizzi l'API locations.list per assicurarti che le zone AI vengano visualizzate solo da chi intende utilizzarle.

Utilizzo delle zone AI in GKE

Per impostazione predefinita, GKE non esegue il deployment dei workload nelle zone AI. Per utilizzare una zona AI, configura una delle seguenti opzioni:

  • ComputeClasses: imposta la priorità più alta per richiedere TPU on demand in una zona AI. ComputeClasses ti aiuta a definire un elenco prioritario di configurazioni hardware per i tuoi workload. Per un esempio, consulta Informazioni su ComputeClasses.

  • Provisioning automatico dei nodi:utilizza nodeSelector o nodeAffinity nella specifica del pod per indicare al provisioning automatico dei nodi di creare un node pool nella zona AI. Se il tuo workload non ha come target esplicito una zona AI, il provisioning automatico dei nodi considera solo le zone standard durante la creazione di nuovi node pool. Questa configurazione garantisce che i workload che non eseguono modelli AI/ML rimangano nelle zone standard, a meno che tu non configuri diversamente. Per un esempio di manifest che utilizza un nodeSelector, vedi Imposta le zone predefinite per i nodi creati automaticamente.

  • GKE Standard: se gestisci direttamente i tuoi node pool, utilizza una zona AI nel flag --node-locations quando crei un node pool. Per un esempio, vedi Esegui il deployment dei carichi di lavoro TPU in GKE Standard.

Limitazioni

Le seguenti funzionalità non sono disponibili nelle zone AI:

Considerazioni sulla progettazione con le zone AI

Quando progetti le tue applicazioni per utilizzare le zone AI, tieni presente quanto segue.

Considerazioni sull'alta disponibilità (HA)

Le zone AI condividono implementazioni software e infrastruttura con le zone principali. Per garantire l'alta disponibilità dei tuoi workload, evita questi pattern di deployment quando selezioni le zone, automaticamente o manualmente:

  • Evita di eseguire il deployment di workload HA in una zona AI e nella relativa zona principale.

  • Evita di eseguire il deployment di workload HA in due zone AI che condividono la stessa zona principale.

Best practice per l'archiviazione

Ti consigliamo un'architettura di archiviazione a livelli per bilanciare costi, durabilità e prestazioni:

  1. Livello di archiviazione a freddo: utilizza i bucket Cloud Storage regionali nelle zone standard per l'archiviazione persistente e altamente durevole dei set di dati di addestramento e dei checkpoint del modello.
  2. Livello di prestazioni:utilizza servizi di archiviazione zonale specializzati per fungere da cache ad alta velocità o spazio temporaneo. Questo approccio elimina la latenza tra le zone e massimizza il goodput durante i job attivi.

    Per garantire che GPU e TPU rimangano completamente sature, massimizzando il goodput, esegui il provisioning del livello di rendimento nella stessa zona AI delle risorse di calcolo.

Per ottimizzare le prestazioni del sistema AI e ML con le zone AI, sono consigliate le seguenti soluzioni di archiviazione:

Servizio di archiviazione Descrizione Casi d'uso
Funzionalità Anywhere Cache di Cloud Storage Una cache di lettura zonale completamente gestita e basata su SSD che trasferisce i dati letti di frequente da un bucket nella zona AI. Consigliato per:
  • Workload ad alta intensità di lettura
  • Addestramento e gestione del modello a bassa latenza
Non consigliato per:
  • Applicazioni che richiedono la piena conformità a POSIX

Passaggi successivi