Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Crea un cluster GKE ottimizzato per l'AI con la configurazione predefinita

Questo documento mostra come creare un cluster Google Kubernetes Engine (GKE) ottimizzato per l'AI che utilizza istanze Compute Engine A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU) per supportare i carichi di lavoro di AI e ML.

Le serie di macchine A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU) sono progettate per consentirti di eseguire cluster AI/ML su larga scala con funzionalità come il posizionamento mirato dei workload, controlli avanzati di manutenzione del cluster e pianificazione in base alla topologia. Per saperne di più, consulta la panoramica della gestione dei cluster.

GKE fornisce una singola piattaforma per eseguire un insieme diversificato di workload per le esigenze della tua organizzazione. Ciò include il pre-addestramento distribuito ad alte prestazioni, il perfezionamento del modello, l'inferenza del modello, la pubblicazione dell'applicazione e i servizi di supporto. GKE riduce il carico operativo della gestione di più piattaforme.

Scegliere come creare un cluster GKE ottimizzato per l'AI

Le seguenti opzioni per la creazione di cluster offrono ciascuna diversi gradi di facilità e flessibilità nella configurazione del cluster e nella pianificazione dei workload:

Crea cluster con la configurazione predefinita per le risorse di calcolo, archiviazione e networking e con GPUDirect RDMA-over-Converged-Ethernet (RoCE) abilitato:
- Utilizza Cluster Toolkit per creare rapidamente cluster GKE pronti per la produzione.
- Utilizza Accelerated Processing Kit (XPK) per creare rapidamente cluster GKE per prove concettuali e test.
In alternativa, puoi creare manualmente il cluster GKE per una personalizzazione o un'espansione precisa degli ambienti GKE di produzione esistenti. Per creare manualmente un cluster GKE ottimizzato per l'AI, consulta una delle seguenti pagine:
- A4X Max: crea un cluster GKE personalizzato ottimizzato per l'AI che utilizza A4X Max.
- A4X: crea un cluster GKE personalizzato ottimizzato per l'AI che utilizza A4X.
- A4 o A3 Ultra: crea un cluster GKE personalizzato ottimizzato per l'AI che utilizza A4 o A3 Ultra.
- A3 Mega o A3 High: crea cluster GKE Standard che utilizzano A3 Mega o A3 High oppure crea cluster GKE Autopilot che utilizzano A3 Mega o A3 High.

Prima di iniziare

Prima di iniziare, assicurati di aver eseguito le seguenti operazioni:

Attiva l'API Google Kubernetes Engine.

Attiva l'API Google Kubernetes Engine

Per utilizzare Google Cloud CLI per questa attività, installala e poi inizializza gcloud CLI. Se hai già installato gcloud CLI, scarica l'ultima versione eseguendo il comando gcloud components update. Le versioni precedenti di gcloud CLI potrebbero non supportare l'esecuzione dei comandi in questo documento.
Nota: per le installazioni esistenti di gcloud CLI, assicurati di impostare la proprietà compute/region. Se utilizzi principalmente cluster zonali, imposta invece compute/zone. Se imposti una località predefinita, puoi evitare errori in gcloud CLI come il seguente: One of [--zone, --region] must be supplied: Please specify location. Potresti dover specificare la posizione in determinati comandi se la posizione del cluster è diversa da quella predefinita che hai impostato.

Verifica di disporre delle autorizzazioni necessarie per creare e gestire il cluster GKE e i service account associati:
- Amministratore Kubernetes Engine (roles/container.admin)
- Compute Admin (roles/compute.admin)
- Amministratore Storage (roles/storage.admin)
- Project IAM Admin (roles/resourcemanager.projectIamAdmin)
- Amministratore service account (roles/iam.serviceAccountAdmin)
- Utente Service Account (roles/iam.serviceAccountUser)
- Consumer utilizzo dei servizi (roles/serviceusage.serviceUsageConsumer)
- Role Administrator (roles/iam.roleAdmin)
- Manager versione secret di Secret Manager (roles/secretmanager.secretVersionManager)

Scegli un'opzione di consumo e ottieni la capacità

Scegli un'opzione di consumo. Fai la tua scelta in base a come vuoi ottenere e utilizzare le risorse GPU. Per saperne di più, consulta la sezione Scegliere un'opzione di consumo.

Per GKE, considera le seguenti informazioni aggiuntive quando scegli un'opzione di consumo:
- Le istanze di calcolo A4X Max e A4X non possono essere sottoposte a provisioning con avvio flessibile.
- Per saperne di più su flex-start (anteprima) e GKE, consulta Informazioni sull'ottenimento di GPU con flex-start.
- L'avvio flessibile utilizza il posizionamento compatto con il criterio del "best effort". Per esaminare la topologia, consulta Visualizza la topologia fisica dei nodi nel cluster GKE.
- Puoi ottenere informazioni sulla topologia quando utilizzi le VM spot solo se configuri il posizionamento compatto.
Ottenere capacità. La procedura per ottenere la capacità varia a seconda dell'opzione di consumo.

Per scoprire di più sulla procedura per l'opzione di consumo che hai scelto, consulta la sezione Panoramica della capacità.

Nota: quando richiedi la capacità A4X, la ottieni in modalità di capacità totale. Questa modalità è l'unica modalità operativa di prenotazione supportata per i tipi di macchina A4X. Per saperne di più sulla modalità di capacità, consulta Modalità operativa di prenotazione.

Requisiti

Al cluster GKE ottimizzato per l'AI si applicano i seguenti requisiti:

Per A4X Max, devi utilizzare una delle seguenti versioni:
- Per la versione 1.35 o successive, utilizza GKE 1.35.0-gke.2745000 o versioni successive.
- Per la versione 1.34, utilizza GKE 1.34.3-gke.1318000 o versioni successive.
Queste versioni contribuiscono a garantire che A4X Max utilizzi quanto segue:
- R580.95.05, la versione minima del driver GPU per A4X Max, che è abilitata per impostazione predefinita.
- Coherent Driver-based Memory Management (CDMM), che è abilitato per impostazione predefinita. NVIDIA consiglia ai cluster Kubernetes di attivare questa modalità per risolvere il problema della segnalazione eccessiva della memoria. CDMM consente di gestire la memoria GPU tramite il driver anziché il sistema operativo. Questo approccio consente di evitare l'online della memoria GPU del sistema operativo ed espone la memoria GPU come nodo NUMA (Non-Uniform Memory Access) al sistema operativo. Le GPU multi-istanza non sono supportate quando CDMM è abilitato. Per ulteriori informazioni su CDMM, vedi Assistenza hardware e software.
- GPUDirect RDMA e MNNVL, che sono consigliati per consentire ai pool di nodi A4X Max di utilizzare le funzionalità di rete di A4X Max.
Per A4X, devi utilizzare una delle seguenti versioni:
- Per la versione 1.33 o successive, utilizza GKE 1.33.4-gke.1036000 o versioni successive.
- Per la versione 1.32, utilizza GKE 1.32.8-gke.1108000 o versioni successive.
Queste versioni contribuiscono a garantire che A4X utilizzi quanto segue:
- R580, la versione minima del driver GPU per A4X, che è abilitata per impostazione predefinita.
- Coherent Driver-based Memory Management (CDMM), che è abilitato per impostazione predefinita. NVIDIA consiglia ai cluster Kubernetes di attivare questa modalità per risolvere il problema della segnalazione eccessiva della memoria. CDMM consente di gestire la memoria GPU tramite il driver anziché il sistema operativo. Questo approccio consente di evitare l'online della memoria GPU del sistema operativo ed espone la memoria GPU come nodo NUMA (Non-Uniform Memory Access) al sistema operativo. Le GPU multi-istanza non sono supportate quando CDMM è abilitato. Per ulteriori informazioni su CDMM, vedi Assistenza hardware e software.
- GPUDirect RDMA e MNNVL, che sono consigliati per consentire ai pool di nodi A4X di utilizzare le funzionalità di networking di A4X.
Assicurati di utilizzare la versione minima del driver GPU, a seconda del tipo di macchina:
- A4X Max: le GPU GB300 nelle istanze bare metal A4X Max richiedono almeno la versione R580.95.05 del driver GPU. Consulta i requisiti di versione menzionati in precedenza.
- A4X: le GPU GB200 nelle istanze di macchine virtuali (VM) A4X richiedono almeno la versione R580 del driver della GPU. Consulta i requisiti di versione menzionati in precedenza.
- A4: le GPU B200 nelle istanze VM A4 richiedono almeno la versione R570 del driver GPU. Per impostazione predefinita, GKE installa automaticamente questa versione del driver su tutti i nodi A4 che eseguono la versione minima richiesta per A4, 1.32.1-gke.1729000 o versioni successive.
- A3 Ultra: le GPU H200 nelle istanze VM A3 Ultra richiedono una versione minima del driver GPU R550, disponibile in GKE 1.31 come versione del driver latest. Per A3 Ultra, devi impostare gpu-driver-version=latest con GKE 1.31. Per GKE versione 1.31.5-gke.1169000 o successive, GKE, per impostazione predefinita, installa automaticamente le versioni del driver GPU R550 sui nodi A3 Ultra.
- A3 Mega e A3 High: le GPU H100 nelle VM A3 High e A3 Mega sono supportate dalla versione predefinita del driver GPU in tutte le versioni GKE supportate. Puoi anche impostare gpu-driver-version=latest per accedere ai driver di produzione più recenti disponibili nelle versioni GKE supportate.
Per i pool di nodi A3 Ultra, devi impostare il tipo di disco su hyperdisk-balanced.
Per utilizzare GPUDirect RDMA, utilizza le seguenti versioni minime a seconda del tipo di macchina:
- A4X Max: consulta i requisiti di versione menzionati in precedenza.
- A4X: consulta i requisiti di versione menzionati in precedenza.
- A4: utilizza la versione 1.32.2-gke.1475000 o successive.
- A3 Ultra: utilizza la versione 1.31.4-gke.1183000 o successive.
Per utilizzare GPUDirect-TCPXO (per A3 Mega) e GPUDirect-TCPX (per A3 High), utilizza le seguenti versioni di GKE:
- A3 High: utilizza qualsiasi versione di GKE disponibile precedente alla 1.34.
- A3 Mega: utilizza qualsiasi versione di GKE disponibile.
Per utilizzare GPUDirect RDMA, i nodi GKE devono utilizzare un'immagine del nodo Container-Optimized OS. Le immagini dei nodi Ubuntu e Windows non sono supportate.
Per creare cluster con A4X Max e A4X, devi utilizzare il modello di provisioning con prenotazione. Altri modelli di provisioning non sono supportati.

Crea un cluster

Segui queste istruzioni per creare un cluster utilizzando Cluster Toolkit o XPK.

Crea un cluster utilizzando Cluster Toolkit

Questa sezione ti guida nella procedura di creazione del cluster, assicurandoti che il tuo progetto segua le best practice e soddisfi i requisiti per un cluster GKE ottimizzato per l'AI. Questa sezione mostra anche come utilizzare Terraform per eseguire il provisioning e gestire l'infrastruttura per il deployment.

A4X Max

Avvia Cloud Shell. Puoi utilizzare un ambiente diverso, ma ti consigliamo Cloud Shell perché le dipendenze sono già preinstallate per Cluster Toolkit. Se non vuoi utilizzare Cloud Shell, segui le istruzioni per installare le dipendenze per preparare un ambiente diverso.
Installa Cluster Toolkit.
Crea un bucket Cloud Storage con il controllo delle versioni abilitato per archiviare lo stato del deployment Terraform:
```
gcloud storage buckets create gs://BUCKET_NAME \
    --default-storage-class=STANDARD \
    --project=PROJECT_ID \
    --location=COMPUTE_REGION_TERRAFORM_STATE \
    --uniform-bucket-level-access
gcloud storage buckets update gs://BUCKET_NAME --versioning
```
Sostituisci le seguenti variabili:
- BUCKET_NAME: il nome del nuovo bucket Cloud Storage, che deve soddisfare i requisiti di denominazione dei bucket.
- PROJECT_ID: il tuo ID progetto Google Cloud .
- COMPUTE_REGION_TERRAFORM_STATE: la regione di computing in cui vuoi memorizzare lo stato del deployment Terraform.
Nel progetto base examples/gke-a4x-max-bm/gke-a4x-max-bm-deployment.yaml dal repository GitHub, inserisci le seguenti impostazioni nelle sezioni terraform_backend_defaults e vars in modo che corrispondano ai valori specifici per il tuo deployment:
- DEPLOYMENT_NAME: un nome univoco per il deployment, che deve essere compreso tra 6 e 30 caratteri. Se il nome del deployment non è univoco all'interno di un progetto, la creazione del cluster non va a buon fine. Il valore predefinito è gke-a4x-max-bm.
- BUCKET_NAME: il nome del bucket Cloud Storage creato nel passaggio precedente.
- PROJECT_ID: il tuo ID progetto Google Cloud .
- COMPUTE_REGION: la regione di computing del cluster.
- COMPUTE_ZONE: la zona di computing del pool di nodi delle macchine A4X Max. Tieni presente che questa zona deve corrispondere a quella in cui le macchine sono disponibili nella prenotazione.
- NODE_COUNT: il numero di nodi A4X Max nel pool di nodi del cluster, che deve essere pari o inferiore a 18 nodi. Ti consigliamo di utilizzare 18 nodi per ottenere la topologia GPU di 1x72 in un sottoblocco utilizzando un dominio NVLink.
- IP_ADDRESS/SUFFIX: l'intervallo di indirizzi IP a cui vuoi consentire di connettersi al cluster. Questo blocco CIDR deve includere l'indirizzo IP della macchina che vuoi utilizzare per chiamare Terraform. Per saperne di più, consulta Come funzionano le reti autorizzate.
- Per il campo extended_reservation, utilizza uno dei seguenti valori, a seconda che tu voglia scegliere come target blocchi specifici in una prenotazione durante il provisioning del pool di nodi:
  - Per posizionare il pool di nodi in un punto qualsiasi della prenotazione, fornisci il nome della prenotazione (RESERVATION_NAME).
  - Per scegliere come target un blocco specifico all'interno della prenotazione, utilizza i nomi della prenotazione e del blocco nel seguente formato:
```
RESERVATION_NAME/reservationBlocks/BLOCK_NAME
```
  Se non sai quali blocchi sono disponibili nella tua prenotazione, consulta Visualizzare la topologia di una prenotazione.
Per modificare le impostazioni avanzate, modifica il file examples/gke-a4x-max-bm/gke-a4x-max-bm.yaml.
Genera le Credenziali predefinite dell'applicazione (ADC) per fornire l'accesso a Terraform. Se utilizzi Cloud Shell, accedi e configura ADC:
```
gcloud auth application-default login
```

Esegui il deployment del blueprint per eseguire il provisioning dell'infrastruttura GKE utilizzando i tipi di macchine A4X Max:

cd ~/cluster-toolkit
./gcluster deploy -d \
examples/gke-a4x-max-bm/gke-a4x-max-bm-deployment.yaml \
examples/gke-a4x-max-bm/gke-a4x-max-bm.yaml

Quando richiesto, seleziona (A)pplica per eseguire il deployment del blueprint.
- Il blueprint crea reti VPC, una rete VPC GPU RDMA, service account, un cluster e un pool di nodi.
- Per supportare il modello di job fio-bench-job-template nel blueprint, vengono create risorse di bucket, spazio di archiviazione di rete e volumi permanentiGoogle Cloud .

A4X

Avvia Cloud Shell. Puoi utilizzare un ambiente diverso, ma ti consigliamo Cloud Shell perché le dipendenze sono già preinstallate per Cluster Toolkit. Se non vuoi utilizzare Cloud Shell, segui le istruzioni per installare le dipendenze per preparare un ambiente diverso.
Installa Cluster Toolkit.
Crea un bucket Cloud Storage con il controllo delle versioni abilitato per archiviare lo stato del deployment Terraform:
```
gcloud storage buckets create gs://BUCKET_NAME \
    --default-storage-class=STANDARD \
    --project=PROJECT_ID \
    --location=COMPUTE_REGION_TERRAFORM_STATE \
    --uniform-bucket-level-access
gcloud storage buckets update gs://BUCKET_NAME --versioning
```
Sostituisci le seguenti variabili:
- BUCKET_NAME: il nome del nuovo bucket Cloud Storage, che deve soddisfare i requisiti di denominazione dei bucket.
- PROJECT_ID: il tuo ID progetto Google Cloud .
- COMPUTE_REGION_TERRAFORM_STATE: la regione di computing in cui vuoi memorizzare lo stato del deployment Terraform.
Nel progetto base examples/gke-a4x/gke-a4x-deployment.yaml dal repository GitHub, inserisci le seguenti impostazioni nelle sezioni terraform_backend_defaults e vars in modo che corrispondano ai valori specifici del tuo deployment:
- DEPLOYMENT_NAME: un nome univoco per il deployment, che deve essere compreso tra 6 e 30 caratteri. Se il nome del deployment non è univoco all'interno di un progetto, la creazione del cluster non va a buon fine. Il valore predefinito è gke-a4x.
- BUCKET_NAME: il nome del bucket Cloud Storage creato nel passaggio precedente.
- PROJECT_ID: il tuo ID progetto Google Cloud .
- COMPUTE_REGION: la regione di computing del cluster.
- COMPUTE_ZONE: la zona di computing del pool di nodi delle macchine A4X. Tieni presente che questa zona deve corrispondere alla zona in cui le macchine sono disponibili nella prenotazione.
- NODE_COUNT: il numero di nodi A4X nel pool di nodi del cluster, che deve essere pari o inferiore a 18 nodi. Ti consigliamo di utilizzare 18 nodi per ottenere la topologia GPU di 1x72 in un sottoblocco utilizzando un dominio NVLink.
- IP_ADDRESS/SUFFIX: l'intervallo di indirizzi IP a cui vuoi consentire di connettersi al cluster. Questo blocco CIDR deve includere l'indirizzo IP della macchina che vuoi utilizzare per chiamare Terraform. Per saperne di più, consulta Come funzionano le reti autorizzate.
- Per il campo extended_reservation, utilizza uno dei seguenti valori, a seconda che tu voglia scegliere come target blocchi specifici in una prenotazione durante il provisioning del pool di nodi:
  - Per posizionare il pool di nodi in un punto qualsiasi della prenotazione, fornisci il nome della prenotazione (RESERVATION_NAME).
  - Per scegliere come target un blocco specifico all'interno della prenotazione, utilizza i nomi della prenotazione e del blocco nel seguente formato:
```
RESERVATION_NAME/reservationBlocks/BLOCK_NAME
```
  Se non sai quali blocchi sono disponibili nella tua prenotazione, consulta Visualizzare la topologia di una prenotazione.
Per modificare le impostazioni avanzate, modifica il file examples/gke-a4x/gke-a4x.yaml.
Genera le Credenziali predefinite dell'applicazione (ADC) per fornire l'accesso a Terraform. Se utilizzi Cloud Shell, accedi e configura ADC:
```
gcloud auth application-default login
```

Esegui il deployment del blueprint per eseguire il provisioning dell'infrastruttura GKE utilizzando i tipi di macchine A4X:

cd ~/cluster-toolkit
./gcluster deploy -d \
examples/gke-a4x/gke-a4x-deployment.yaml \
examples/gke-a4x/gke-a4x.yaml

Quando richiesto, seleziona (A)pplica per eseguire il deployment del blueprint.
- Il blueprint crea reti VPC, una rete VPC GPU RDMA, service account, un cluster e un pool di nodi.
- Per supportare il modello di job fio-bench-job-template nel blueprint, vengono create risorse di bucket, spazio di archiviazione di rete e volumi permanentiGoogle Cloud .

A4

Avvia Cloud Shell. Puoi utilizzare un ambiente diverso, ma ti consigliamo Cloud Shell perché le dipendenze sono già preinstallate per Cluster Toolkit. Se non vuoi utilizzare Cloud Shell, segui le istruzioni per installare le dipendenze per preparare un ambiente diverso.
Installa Cluster Toolkit.
Crea un bucket Cloud Storage con il controllo delle versioni abilitato per archiviare lo stato del deployment Terraform:
```
gcloud storage buckets create gs://BUCKET_NAME \
    --default-storage-class=STANDARD \
    --project=PROJECT_ID \
    --location=COMPUTE_REGION_TERRAFORM_STATE \
    --uniform-bucket-level-access
gcloud storage buckets update gs://BUCKET_NAME --versioning
```
Sostituisci le seguenti variabili:
- BUCKET_NAME: il nome del nuovo bucket Cloud Storage, che deve soddisfare i requisiti di denominazione dei bucket.
- PROJECT_ID: il tuo ID progetto Google Cloud .
- COMPUTE_REGION_TERRAFORM_STATE: la regione di computing in cui vuoi memorizzare lo stato del deployment Terraform.
I file che devi modificare per creare un cluster dipendono dall'opzione di consumo che utilizzi per il deployment. Seleziona la scheda corrispondente al modello di provisioning dell'opzione di consumo.
Con prenotazione
Nel progetto base examples/gke-a4/gke-a4-deployment.yaml dal repository GitHub, inserisci le seguenti impostazioni nelle sezioni terraform_backend_defaults e vars in modo che corrispondano ai valori specifici del tuo deployment:
- DEPLOYMENT_NAME: un nome univoco per il deployment, che deve essere compreso tra 6 e 30 caratteri. Se il nome del deployment non è univoco all'interno di un progetto, la creazione del cluster non va a buon fine. Il valore predefinito è gke-a4.
- BUCKET_NAME: il nome del bucket Cloud Storage creato nel passaggio precedente.
- PROJECT_ID: il tuo ID progetto Google Cloud .
- COMPUTE_REGION: la regione di computing del cluster.
- COMPUTE_ZONE: la zona di computing del pool di nodi delle macchine A4. Tieni presente che questa zona deve corrispondere alla zona in cui le macchine sono disponibili nella prenotazione.
- NODE_COUNT: il numero di nodi A4 nel cluster.
- IP_ADDRESS/SUFFIX: l'intervallo di indirizzi IP a cui vuoi consentire di connettersi al cluster. Questo blocco CIDR deve includere l'indirizzo IP della macchina che vuoi utilizzare per chiamare Terraform. Per saperne di più, consulta Come funzionano le reti autorizzate.
- Per il campo reservation, utilizza uno dei seguenti valori, a seconda che tu voglia scegliere come target blocchi specifici in una prenotazione durante il provisioning del pool di nodi:
  
  Per posizionare il pool di nodi in un punto qualsiasi della prenotazione, fornisci il nome della prenotazione (RESERVATION_NAME).
  
  Per scegliere come target un blocco specifico all'interno della prenotazione, utilizza i nomi della prenotazione e del blocco nel seguente formato:
  
  RESERVATION_NAME/reservationBlocks/BLOCK_NAME
  
  Se non sai quali blocchi sono disponibili nella tua prenotazione, consulta Visualizzare la topologia di una prenotazione.
Per modificare le impostazioni avanzate, modifica examples/gke-a4/gke-a4.yaml.
Avvio flessibile

Anteprima

Questo prodotto o funzionalità sono soggetti ai "Termini dell'offerta pre-GA" nella sezione dei Termini di servizio generali dei Termini specifici dei servizi. I prodotti e le funzionalità pre-GA sono disponibili "così come sono" e potrebbero avere un supporto limitato. Per ulteriori informazioni, consulta le descrizioni della fase di lancio.
1. Nel progetto base examples/gke-a4/gke-a4-deployment.yaml dal repository GitHub, inserisci le seguenti impostazioni nelle sezioni terraform_backend_defaults e vars in modo che corrispondano ai valori specifici del tuo deployment:
  
  DEPLOYMENT_NAME: un nome univoco per il deployment, che deve essere compreso tra 6 e 30 caratteri. Se il nome del deployment non è univoco all'interno di un progetto, la creazione del cluster non riesce. Il valore predefinito è gke-a4.
  
  BUCKET_NAME: il nome del bucket Cloud Storage creato nel passaggio precedente.
  
  PROJECT_ID: il tuo ID progetto Google Cloud .
  
  COMPUTE_REGION: la regione di computing del cluster.
  
  COMPUTE_ZONE: la zona di computing del pool di nodi delle macchine A4.
  
  Rimuovi static_node_count.
  
  IP_ADDRESS/SUFFIX: l'intervallo di indirizzi IP a cui vuoi consentire di connettersi al cluster. Questo blocco CIDR deve includere l'indirizzo IP della macchina che vuoi utilizzare per chiamare Terraform. Per saperne di più, consulta Come funzionano le reti autorizzate.
  
  Rimuovi il campo reservation e sostituiscilo con enable_flex_start: true. Aggiungi enable_queued_provisioning: true nella riga successiva se vuoi utilizzare anche il provisioning in coda. Per saperne di più, consulta Utilizzare i pool di nodi con avvio flessibile con provisioning in coda.
2. Nel progetto base examples/gke-a4/gke-a4.yaml dal repository GitHub, apporta le seguenti modifiche:
  
  Nel blocco vars, rimuovi static_node_count.
  
  Nel blocco vars, assicurati che il numero version_prefix sia "1.32." o superiore. Per utilizzare l'avvio flessibile in GKE, il cluster deve utilizzare la versione 1.32.2-gke.1652000 o successive.
  
  Nel blocco vars, sostituisci l'intero blocco reservation (inclusa la riga reservation) con enable_flex_start: true e, facoltativamente, enable_queued_provisioning: true.
  
  Nel blocco vars, se non è necessario il provisioning in coda, rimuovi la seguente riga: kueue_configuration_path: $(ghpc_stage("./kueue-configuration.yaml.tftpl")).
  
  In id: a4-pool, rimuovi la seguente riga: static_node_count: $(vars.static_node_count).
  
  Nella sezione id: a4-pool, rimuovi il blocco reservation_affinity. Sostituisci questo blocco con le seguenti righe:
  
  enable_flex_start: $(vars.enable_flex_start)
  
  auto_repair: false
  
  Per il provisioning in coda, se vuoi attivarlo, aggiungi le seguenti righe aggiuntive:
  
  enable_queued_provisioning: $(vars.enable_queued_provisioning)
  
  autoscaling_total_min_nodes: 0
  
  In id: workload-manager-install, rimuovi il seguente blocco:
  
  kueue: install: true config_path: $(vars.kueue_configuration_path) config_template_vars: num_gpus: $(a3-ultragpu-pool.static_gpu_count) accelerator_type: $(vars.accelerator_type)
  
  Per l'avvio flessibile con provisioning in coda:
  
  Aggiungi gpu_nominal_quota: NOMINAL_QUOTA al blocco vars. Il valore gpu_nominal_quota viene utilizzato per impostare il valore nominalQuota delle GPU nella specifica ClusterQueue (vedi il passaggio di impostazione di ClusterQueue di seguito). In questo esempio, ClusterQueue ammette i workload solo se la somma delle richieste di GPU è inferiore o uguale al valore NOMINAL_QUOTA. Per saperne di più su ClusterQueue, consulta il seguente documento di Kueue sulla coda del cluster.
  
  Aggiorna il blocco kueue come segue:
  
  kueue: install: true config_path: $(vars.kueue_configuration_path) config_template_vars: num_gpus: $(vars.gpu_nominal_quota)
  
  Sostituisci i contenuti del file kueue-configuration.yaml.tftpl con i seguenti:
  
  apiVersion: kueue.x-k8s.io/v1beta1 kind: ResourceFlavor metadata: name: "default-flavor" --- apiVersion: kueue.x-k8s.io/v1beta1 kind: AdmissionCheck metadata: name: dws-prov spec: controllerName: kueue.x-k8s.io/provisioning-request parameters: apiGroup: kueue.x-k8s.io kind: ProvisioningRequestConfig name: dws-config --- apiVersion: kueue.x-k8s.io/v1beta1 kind: ProvisioningRequestConfig metadata: name: dws-config spec: provisioningClassName: queued-provisioning.gke.io managedResources: - nvidia.com/gpu --- apiVersion: kueue.x-k8s.io/v1beta1 kind: ClusterQueue metadata: name: "dws-cluster-queue" spec: namespaceSelector: {} resourceGroups: - coveredResources: ["nvidia.com/gpu"] flavors: - name: "default-flavor" resources: - name: "nvidia.com/gpu" nominalQuota: ${num_gpus} admissionChecks: - dws-prov --- apiVersion: kueue.x-k8s.io/v1beta1 kind: LocalQueue metadata: namespace: "default" name: "dws-local-queue" spec: clusterQueue: "dws-cluster-queue" ---
  
  In id: job-template, sostituisci la variabile node_count con 2.
Spot
1. Nel progetto base examples/gke-a4/gke-a4-deployment.yaml dal repository GitHub, inserisci le seguenti impostazioni nelle sezioni terraform_backend_defaults e vars in modo che corrispondano ai valori specifici del tuo deployment:
  
  DEPLOYMENT_NAME: un nome univoco per il deployment, che deve essere compreso tra 6 e 30 caratteri. Se il nome del deployment non è univoco all'interno di un progetto, la creazione del cluster non riesce. Il valore predefinito è gke-a4.
  
  BUCKET_NAME: il nome del bucket Cloud Storage creato nel passaggio precedente.
  
  PROJECT_ID: il tuo ID progetto Google Cloud .
  
  COMPUTE_REGION: la regione di computing del cluster.
  
  COMPUTE_ZONE: la zona di computing del pool di nodi delle macchine A4.
  
  STATIC_NODE_COUNT: il numero di nodi A4 nel cluster.
  
  IP_ADDRESS/SUFFIX: l'intervallo di indirizzi IP a cui vuoi consentire di connettersi al cluster. Questo blocco CIDR deve includere l'indirizzo IP della macchina che vuoi utilizzare per chiamare Terraform. Per saperne di più, consulta Come funzionano le reti autorizzate.
  
  Sostituisci l'intero blocco reservation (inclusa la riga reservation) con spot: true.
2. Nel progetto base examples/gke-a4/gke-a4.yaml dal repository GitHub, apporta le seguenti modifiche:
  
  Nel blocco vars, sostituisci l'intero blocco reservation (inclusa la riga reservation) con spot: true.
  
  Nella sezione id: a4-pool, rimuovi il blocco reservation_affinity. Sostituisci questo blocco con la seguente riga:
  
  spot: $(vars.spot)
Genera le Credenziali predefinite dell'applicazione (ADC) per fornire l'accesso a Terraform. Se utilizzi Cloud Shell, accedi e configura ADC:
```
gcloud auth application-default login
```
Esegui il deployment del blueprint per eseguire il provisioning dell'infrastruttura GKE utilizzando i tipi di macchine A4:
```
cd ~/cluster-toolkit
./gcluster deploy -d \
examples/gke-a4/gke-a4-deployment.yaml \
examples/gke-a4/gke-a4.yaml
```
Quando richiesto, seleziona (A)pplica per eseguire il deployment del blueprint.
- Il blueprint crea reti VPC, una rete VPC GPU RDMA, service account, un cluster e un pool di nodi.
- Per supportare il modello di job fio-bench-job-template nel blueprint, vengono create risorse di bucket, spazio di archiviazione di rete e volumi permanentiGoogle Cloud .

A3 Ultra

Avvia Cloud Shell. Puoi utilizzare un ambiente diverso, ma ti consigliamo Cloud Shell perché le dipendenze sono già preinstallate per Cluster Toolkit. Se non vuoi utilizzare Cloud Shell, segui le istruzioni per installare le dipendenze per preparare un ambiente diverso.
Installa Cluster Toolkit.
Crea un bucket Cloud Storage con il controllo delle versioni abilitato per archiviare lo stato del deployment Terraform:
```
gcloud storage buckets create gs://BUCKET_NAME \
    --default-storage-class=STANDARD \
    --project=PROJECT_ID \
    --location=COMPUTE_REGION_TERRAFORM_STATE \
    --uniform-bucket-level-access
gcloud storage buckets update gs://BUCKET_NAME --versioning
```
Sostituisci le seguenti variabili:
- BUCKET_NAME: il nome del nuovo bucket Cloud Storage, che deve soddisfare i requisiti di denominazione dei bucket.
- PROJECT_ID: il tuo ID progetto Google Cloud .
- COMPUTE_REGION_TERRAFORM_STATE: la regione di computing in cui vuoi memorizzare lo stato del deployment Terraform.
I file che devi modificare per creare un cluster dipendono dall'opzione di consumo che utilizzi per il deployment. Seleziona la scheda corrispondente al modello di provisioning dell'opzione di consumo.
Con prenotazione
Nel examples/gke-a3-ultragpu/gke-a3-ultragpu-deployment.yaml blueprint dal repository GitHub, sostituisci le seguenti variabili nelle sezioni terraform_backend_defaults e vars in modo che corrispondano ai valori specifici per il tuo deployment:
- DEPLOYMENT_NAME: un nome univoco per il deployment, che deve essere compreso tra 6 e 30 caratteri. Se il nome del deployment non è univoco all'interno di un progetto, la creazione del cluster non va a buon fine.
- BUCKET_NAME: il nome del bucket Cloud Storage creato nel passaggio precedente.
- PROJECT_ID: il tuo ID progetto Google Cloud .
- COMPUTE_REGION: la regione di computing del cluster.
- COMPUTE_ZONE: la zona di computing del pool di nodi delle macchine A3 Ultra. Tieni presente che questa zona deve corrispondere alla zona in cui le macchine sono disponibili nella prenotazione.
- NODE_COUNT: il numero di nodi A3 Ultra nel cluster.
- IP_ADDRESS/SUFFIX: l'intervallo di indirizzi IP a cui vuoi consentire di connettersi al cluster. Questo blocco CIDR deve includere l'indirizzo IP della macchina che vuoi utilizzare per chiamare Terraform. Per saperne di più, consulta Come funzionano le reti autorizzate.
- Per il campo reservation, utilizza uno dei seguenti valori, a seconda che tu voglia scegliere come target blocchi specifici in una prenotazione durante il provisioning del pool di nodi:
  
  Per posizionare il pool di nodi in un punto qualsiasi della prenotazione, fornisci il nome della prenotazione (RESERVATION_NAME).
  
  Per scegliere come target un blocco specifico all'interno della prenotazione, utilizza i nomi della prenotazione e del blocco nel seguente formato:
  
  RESERVATION_NAME/reservationBlocks/BLOCK_NAME
  
  Se non sai quali blocchi sono disponibili nella tua prenotazione, consulta Visualizzare la topologia di una prenotazione.
Per modificare le impostazioni avanzate, modifica examples/gke-a3-ultragpu/gke-a3-ultragpu.yaml.
Avvio flessibile

Anteprima

Questo prodotto o funzionalità sono soggetti ai "Termini dell'offerta pre-GA" nella sezione dei Termini di servizio generali dei Termini specifici dei servizi. I prodotti e le funzionalità pre-GA sono disponibili "così come sono" e potrebbero avere un supporto limitato. Per ulteriori informazioni, consulta le descrizioni della fase di lancio.
1. Nel examples/gke-a3-ultragpu/gke-a3-ultragpu-deployment.yaml blueprint dal repository GitHub, sostituisci le seguenti variabili nelle sezioni terraform_backend_defaults e vars in modo che corrispondano ai valori specifici per il tuo deployment:
  
  DEPLOYMENT_NAME: un nome univoco per il deployment, che deve essere compreso tra 6 e 30 caratteri. Se il nome del deployment non è univoco all'interno di un progetto, la creazione del cluster non riesce.
  
  BUCKET_NAME: il nome del bucket Cloud Storage creato nel passaggio precedente.
  
  PROJECT_ID: il tuo ID progetto Google Cloud .
  
  COMPUTE_REGION: la regione di computing del cluster.
  
  COMPUTE_ZONE: la zona di computing del pool di nodi delle macchine A3 Ultra.
  
  Rimuovi static_node_count.
  
  IP_ADDRESS/SUFFIX: l'intervallo di indirizzi IP a cui vuoi consentire di connettersi al cluster. Questo blocco CIDR deve includere l'indirizzo IP della macchina che vuoi utilizzare per chiamare Terraform. Per saperne di più, consulta Come funzionano le reti autorizzate.
  
  Rimuovi il campo reservation e sostituiscilo con enable_flex_start: true. Aggiungi enable_queued_provisioning: true nella riga successiva se vuoi utilizzare anche il provisioning in coda. Per saperne di più, consulta Utilizzare i pool di nodi con avvio flessibile con provisioning in coda.
2. Nel progetto base examples/gke-a3-ultragpu/gke-a3-ultragpu.yaml del repository GitHub, apporta le seguenti modifiche:
  
  Nel blocco vars, rimuovi static_node_count.
  
  Nel blocco vars, aggiorna il numero version_prefix a "1.32." o a un valore superiore. Per utilizzare l'avvio flessibile in GKE, il cluster deve utilizzare la versione 1.32.2-gke.1652000 o successive.
  
  Nel blocco vars, sostituisci l'intero blocco reservation (inclusa la riga reservation) con enable_flex_start: true e, facoltativamente, enable_queued_provisioning: true.
  
  Nel blocco vars, rimuovi la seguente riga: kueue_configuration_path: $(ghpc_stage("./kueue-configuration.yaml.tftpl")).
  
  In id: a3-ultragpu-pool, rimuovi la seguente riga: static_node_count: $(vars.static_node_count).
  
  Nella sezione id: a3-ultragpu-pool, rimuovi il blocco reservation_affinity. Sostituisci questo blocco con le seguenti righe:
  
  enable_flex_start: $(vars.enable_flex_start)
  
  auto_repair: false
  
  Per il provisioning in coda, se vuoi attivarlo, aggiungi le seguenti righe aggiuntive:
  
  enable_queued_provisioning: $(vars.enable_queued_provisioning)
  
  autoscaling_total_min_nodes: 0
  
  In id: workload-manager-install, rimuovi il seguente blocco:
  
  config_path: $(vars.kueue_configuration_path) config_template_vars: num_gpus: $(a4-pool.static_gpu_count) accelerator_type: $(vars.accelerator_type)
  
  Per l'avvio flessibile con provisioning in coda, segui questi tre passaggi:
  
  Aggiungi gpu_nominal_quota: NOMINAL_QUOTA al blocco vars. Il valore gpu_nominal_quota viene utilizzato per impostare il valore nominalQuota delle GPU nella specifica ClusterQueue. In questo esempio, ClusterQueue ammette carichi di lavoro solo se la somma delle richieste di GPU è inferiore o uguale al valore di NOMINAL_QUOTA. Per saperne di più su ClusterQueue, consulta il seguente documento di Kueue sulla coda del cluster.
  
  Aggiorna il blocco kueue come segue:
  
  kueue: install: true config_path: $(vars.kueue_configuration_path) config_template_vars: num_gpus: $(vars.gpu_nominal_quota)
  
  Sostituisci i contenuti del file kueue-configuration.yaml.tftpl con i seguenti:
  
  apiVersion: kueue.x-k8s.io/v1beta1 kind: ResourceFlavor metadata: name: "default-flavor" --- apiVersion: kueue.x-k8s.io/v1beta1 kind: AdmissionCheck metadata: name: dws-prov spec: controllerName: kueue.x-k8s.io/provisioning-request parameters: apiGroup: kueue.x-k8s.io kind: ProvisioningRequestConfig name: dws-config --- apiVersion: kueue.x-k8s.io/v1beta1 kind: ProvisioningRequestConfig metadata: name: dws-config spec: provisioningClassName: queued-provisioning.gke.io managedResources: - nvidia.com/gpu --- apiVersion: kueue.x-k8s.io/v1beta1 kind: ClusterQueue metadata: name: "dws-cluster-queue" spec: namespaceSelector: {} resourceGroups: - coveredResources: ["nvidia.com/gpu"] flavors: - name: "default-flavor" resources: - name: "nvidia.com/gpu" nominalQuota: ${num_gpus} admissionChecks: - dws-prov --- apiVersion: kueue.x-k8s.io/v1beta1 kind: LocalQueue metadata: namespace: "default" name: "dws-local-queue" spec: clusterQueue: "dws-cluster-queue" ---
  
  Nel campo id: job-template, sostituisci la variabile node_count con 2.
Spot
1. Nel examples/gke-a3-ultragpu/gke-a3-ultragpu-deployment.yaml blueprint dal repository GitHub, inserisci le seguenti impostazioni nelle sezioni terraform_backend_defaults e vars in modo che corrispondano ai valori specifici per il tuo deployment:
  
  DEPLOYMENT_NAME: un nome univoco per il deployment, che deve essere compreso tra 6 e 30 caratteri. Se il nome del deployment non è univoco all'interno di un progetto, la creazione del cluster non riesce.
  
  BUCKET_NAME: il nome del bucket Cloud Storage creato nel passaggio precedente.
  
  PROJECT_ID: il tuo ID progetto Google Cloud .
  
  COMPUTE_REGION: la regione di computing del cluster.
  
  COMPUTE_ZONE: la zona di computing del pool di nodi delle macchine A3 Ultra.
  
  STATIC_NODE_COUNT: il numero di nodi A3 Ultra nel cluster.
  
  IP_ADDRESS/SUFFIX: l'intervallo di indirizzi IP a cui vuoi consentire di connettersi al cluster. Questo blocco CIDR deve includere l'indirizzo IP della macchina che vuoi utilizzare per chiamare Terraform. Per saperne di più, consulta Come funzionano le reti autorizzate.
  
  Sostituisci l'intero blocco reservation (inclusa la riga reservation) con spot: true.
2. Nel progetto base examples/gke-a3-ultragpu/gke-a3-ultragpu.yaml dal repository GitHub, apporta le seguenti modifiche:
  
  Nel blocco vars, sostituisci l'intero blocco reservation (inclusa la riga reservation) con spot: true.
  
  Nella sezione id: a3-ultragpu-pool, rimuovi il blocco reservation_affinity. Sostituisci questo blocco con la seguente riga:
  
  spot: $(vars.spot)
Genera le credenziali predefinite dell'applicazione (ADC) per fornire l'accesso a Terraform. Se utilizzi Cloud Shell, accedi e configura ADC:
```
gcloud auth application-default login
```

Esegui il deployment del blueprint per eseguire il provisioning dell'infrastruttura GKE utilizzando i tipi di macchine A3 Ultra:

cd ~/cluster-toolkit
./gcluster deploy -d \
examples/gke-a3-ultragpu/gke-a3-ultragpu-deployment.yaml \
examples/gke-a3-ultragpu/gke-a3-ultragpu.yaml

Quando richiesto, seleziona (A)pplica per eseguire il deployment del blueprint.
- Il blueprint crea reti VPC, una rete VPC GPU RDMA, service account, un cluster e un pool di nodi.
- Per supportare il modello di job fio-bench-job-template nel blueprint, vengono create risorse di bucket, spazio di archiviazione di rete e volumi permanentiGoogle Cloud .

A3 Mega

Avvia Cloud Shell. Puoi utilizzare un ambiente diverso, ma ti consigliamo Cloud Shell perché le dipendenze sono già preinstallate per Cluster Toolkit. Se non vuoi utilizzare Cloud Shell, prepara un ambiente diverso seguendo le istruzioni per installare le dipendenze.
Installa Cluster Toolkit.
Crea un bucket Cloud Storage con il controllo delle versioni abilitato per archiviare lo stato del deployment Terraform:
```
gcloud storage buckets create gs://BUCKET_NAME \
    --default-storage-class=STANDARD \
    --project=PROJECT_ID \
    --location=COMPUTE_REGION_TERRAFORM_STATE \
    --uniform-bucket-level-access
gcloud storage buckets update gs://BUCKET_NAME --versioning
```
Sostituisci le seguenti variabili:
- BUCKET_NAME: il nome del nuovo bucket Cloud Storage, che deve soddisfare i requisiti di denominazione dei bucket.
- PROJECT_ID: il tuo ID progetto Google Cloud .
- COMPUTE_REGION_TERRAFORM_STATE: la regione di computing in cui vuoi memorizzare lo stato del deployment Terraform.
I file che devi modificare per creare un cluster dipendono dall'opzione di consumo che utilizzi per il deployment. Seleziona la scheda corrispondente al modello di provisioning dell'opzione di consumo.
Con prenotazione
Nel examples/gke-a3-megagpu/gke-a3-megagpu-deployment.yaml blueprint dal repository GitHub, sostituisci le seguenti variabili nelle sezioni terraform_backend_defaults e vars in modo che corrispondano ai valori specifici per il tuo deployment:
- DEPLOYMENT_NAME: un nome univoco per il deployment, che deve essere compreso tra 6 e 30 caratteri. Se il nome del deployment non è univoco all'interno di un progetto, la creazione del cluster non va a buon fine.
- BUCKET_NAME: il nome del bucket Cloud Storage creato nel passaggio precedente.
- PROJECT_ID: il tuo ID progetto Google Cloud .
- COMPUTE_REGION: la regione di computing del cluster.
- COMPUTE_ZONE: la zona di computing per il pool di nodi delle macchine A3 Mega. Tieni presente che questa zona deve corrispondere a quella in cui le macchine sono disponibili nella prenotazione.
- NODE_COUNT: il numero di nodi A3 Mega nel cluster.
- IP_ADDRESS/SUFFIX: l'intervallo di indirizzi IP a cui vuoi consentire di connettersi al cluster. Questo blocco CIDR deve includere l'indirizzo IP della macchina che vuoi utilizzare per chiamare Terraform. Per saperne di più, consulta Come funzionano le reti autorizzate.
- Per il campo reservation, utilizza uno dei seguenti valori, a seconda che tu voglia scegliere come target blocchi specifici in una prenotazione durante il provisioning del pool di nodi:
  
  Per posizionare il pool di nodi in un punto qualsiasi della prenotazione, fornisci il nome della prenotazione (RESERVATION_NAME).
  
  Per scegliere come target un blocco specifico all'interno della prenotazione, utilizza i nomi della prenotazione e del blocco nel seguente formato:
  
  RESERVATION_NAME/reservationBlocks/BLOCK_NAME
  
  Se non sai quali blocchi sono disponibili nella tua prenotazione, consulta Visualizzare la topologia di una prenotazione.
Per modificare le impostazioni avanzate, modifica examples/gke-a3-megagpu/gke-a3-megagpu.yaml.
Avvio flessibile

Anteprima

Questo prodotto o funzionalità sono soggetti ai "Termini dell'offerta pre-GA" nella sezione dei Termini di servizio generali dei Termini specifici dei servizi. I prodotti e le funzionalità pre-GA sono disponibili "così come sono" e potrebbero avere un supporto limitato. Per ulteriori informazioni, consulta le descrizioni della fase di lancio.
1. Nel examples/gke-a3-megagpu/gke-a3-megagpu-deployment.yaml progetto base dal repository GitHub, sostituisci le seguenti variabili nelle sezioni vars in modo che corrispondano ai valori specifici per il tuo deployment:
  
  DEPLOYMENT_NAME: un nome univoco per il deployment, che deve essere compreso tra 6 e 30 caratteri. Se il nome del deployment non è univoco all'interno di un progetto, la creazione del cluster non riesce.
  
  BUCKET_NAME: il nome del bucket Cloud Storage creato nel passaggio precedente.
  
  PROJECT_ID: il tuo ID progetto Google Cloud .
  
  COMPUTE_REGION: la regione di computing del cluster.
  
  COMPUTE_ZONE: la zona di computing per il pool di nodi delle macchine A3 Mega.
  
  Rimuovi static_node_count.
  
  IP_ADDRESS/SUFFIX: l'intervallo di indirizzi IP a cui vuoi consentire di connettersi al cluster. Questo blocco CIDR deve includere l'indirizzo IP della macchina che vuoi utilizzare per chiamare Terraform. Per saperne di più, consulta Come funzionano le reti autorizzate.
  
  Rimuovi il campo reservation e sostituiscilo con enable_flex_start: true. Se vuoi utilizzare anche il provisioning in coda, aggiungi enable_queued_provisioning: true alla riga seguente. Per saperne di più, consulta Utilizzare i pool di nodi con avvio flessibile con provisioning in coda.
2. Nel progetto base examples/gke-a3-megagpu/gke-a3-megagpu.yaml del repository GitHub, apporta le seguenti modifiche:
  
  Nel blocco vars, rimuovi static_node_count.
  
  Nel blocco vars, aggiorna il numero version_prefix a "1.32." o a un valore superiore. Per utilizzare l'avvio flessibile in GKE, il cluster deve utilizzare la versione 1.32.2-gke.1652000 o successive.
  
  Nel blocco vars, sostituisci l'intero blocco reservation (inclusa la riga reservation) con enable_flex_start: true e, facoltativamente, enable_queued_provisioning: true.
  
  Nel blocco vars, rimuovi la seguente riga: kueue_configuration_path: $(ghpc_stage("./kueue-configuration.yaml.tftpl")).
  
  In id: a3_megagpu_pool, rimuovi la seguente riga: static_node_count: $(vars.static_node_count).
  
  Nella sezione id: a3_megagpu_pool, rimuovi il blocco reservation_affinity. Sostituisci questo blocco con le seguenti righe:
  
  enable_flex_start: $(vars.enable_flex_start)
  
  auto_repair: false
  
  Per il provisioning in coda, se vuoi attivarlo, aggiungi le seguenti righe aggiuntive:
  
  enable_queued_provisioning: $(vars.enable_queued_provisioning)
  
  autoscaling_total_min_nodes: 0
  
  In id: workload_manager_install, rimuovi il seguente blocco:
  
  config_path: $(vars.kueue_configuration_path) config_template_vars: num_gpus: $(a3_megagpu_pool.static_gpu_count) accelerator_type: $(vars.accelerator_type)
  
  Per l'avvio flessibile con provisioning in coda, segui questi tre passaggi:
  
  Aggiungi gpu_nominal_quota: NOMINAL_QUOTA al blocco vars. Il valore gpu_nominal_quota viene utilizzato per impostare il valore nominalQuota delle GPU nella specifica ClusterQueue. In questo esempio, ClusterQueue ammette carichi di lavoro solo se la somma delle richieste di GPU è inferiore o uguale al valore di NOMINAL_QUOTA. Per saperne di più su ClusterQueue, consulta il seguente documento di Kueue sulla coda del cluster.
  
  Aggiorna il blocco kueue come segue:
  
  kueue: install: true config_path: $(vars.kueue_configuration_path) config_template_vars: num_gpus: $(vars.gpu_nominal_quota)
  
  Sostituisci i contenuti del file kueue-configuration.yaml.tftpl con i seguenti:
  
  apiVersion: kueue.x-k8s.io/v1beta1 kind: ResourceFlavor metadata: name: "default-flavor" --- apiVersion: kueue.x-k8s.io/v1beta1 kind: AdmissionCheck metadata: name: dws-prov spec: controllerName: kueue.x-k8s.io/provisioning-request parameters: apiGroup: kueue.x-k8s.io kind: ProvisioningRequestConfig name: dws-config --- apiVersion: kueue.x-k8s.io/v1beta1 kind: ProvisioningRequestConfig metadata: name: dws-config spec: provisioningClassName: queued-provisioning.gke.io managedResources: - nvidia.com/gpu --- apiVersion: kueue.x-k8s.io/v1beta1 kind: ClusterQueue metadata: name: "dws-cluster-queue" spec: namespaceSelector: {} resourceGroups: - coveredResources: ["nvidia.com/gpu"] flavors: - name: "default-flavor" resources: - name: "nvidia.com/gpu" nominalQuota: ${num_gpus} admissionChecks: - dws-prov --- apiVersion: kueue.x-k8s.io/v1beta1 kind: LocalQueue metadata: namespace: "default" name: "dws-local-queue" spec: clusterQueue: "dws-cluster-queue" ---
  
  Nel campo id: job-template, il valore della variabile node_count con 2.
Spot
1. Nel progetto base examples/gke-a3-megagpu/gke-a3-megagpu-deployment.yaml dal repository GitHub, inserisci le seguenti impostazioni nelle sezioni vars in modo che corrispondano ai valori specifici per il tuo deployment:
  
  DEPLOYMENT_NAME: un nome univoco per il deployment, che deve essere compreso tra 6 e 30 caratteri. Se il nome del deployment non è univoco all'interno di un progetto, la creazione del cluster non riesce.
  
  BUCKET_NAME: il nome del bucket Cloud Storage creato nel passaggio precedente.
  
  PROJECT_ID: il tuo ID progetto Google Cloud .
  
  COMPUTE_REGION: la regione di computing del cluster.
  
  COMPUTE_ZONE: la zona di computing per il pool di nodi delle macchine A3 Mega.
  
  STATIC_NODE_COUNT: il numero di nodi A3 Mega nel cluster.
  
  IP_ADDRESS/SUFFIX: l'IP
  
  IP_ADDRESS/SUFFIX: l'intervallo di indirizzi IP a cui vuoi consentire di connettersi al cluster. Questo blocco CIDR deve includere l'indirizzo IP della macchina che vuoi utilizzare per chiamare Terraform. Per saperne di più, consulta Come funzionano le reti autorizzate.
  
  Sostituisci l'intero blocco reservation (inclusa la riga reservation) con provisioning_model: SPOT.
2. Nel progetto base examples/gke-a3-megagpu/gke-a3-megagpu.yaml del repository GitHub, apporta le seguenti modifiche:
  
  Nel blocco vars, sostituisci l'intero blocco reservation (inclusa la riga reservation) con spot: true.
  
  Nella sezione id: a3_megagpu_pool, rimuovi il blocco reservation_affinity. Sostituisci questo blocco con la seguente riga:
  
  spot: $(vars.spot)
(Facoltativo) Puoi abilitare Cluster Health Scanner (CHS) sul cluster. CHS controlla l'integrità dei cluster GPU eseguendo test per verificare che siano pronti per eseguire i tuoi carichi di lavoro. Per attivare CHS, apporta le seguenti modifiche al file examples/gke-a3-megagpu/gke-a3-megagpu-deployment.yaml:
- Nel blocco vars, imposta il campo enable_periodic_health_checks su true.
- Per impostazione predefinita, i controlli di integrità vengono eseguiti ogni domenica alle 00:00 PST. Se vuoi modificare questa impostazione, nel blocco vars, imposta il campo health_check_schedule su un valore appropriato nel formato cron.
  Pianifica in formato cron: none * * * * * # | | | | | # | | | | day of the week (0-6) (Sunday to Saturday) # | | | month (1-12) # | | day of the month (1-31) # | hour (0-23) # minute (0-59)
Genera le credenziali predefinite dell'applicazione (ADC) per fornire l'accesso a Terraform. Se utilizzi Cloud Shell, puoi eseguire il seguente comando:
```
gcloud auth application-default login
```

Esegui il deployment del blueprint per eseguire il provisioning dell'infrastruttura GKE utilizzando i tipi di macchine A3 Mega:

cd ~/cluster-toolkit
./gcluster deploy -d \
examples/gke-a3-megagpu/gke-a3-megagpu-deployment.yaml \
examples/gke-a3-megagpu/gke-a3-megagpu.yaml

Quando richiesto, seleziona (A)pplica per eseguire il deployment del blueprint.
- Il blueprint crea reti VPC, una rete VPC GPU RDMA, service account, un cluster e un pool di nodi.
- Per supportare il modello di job fio-bench-job-template nel blueprint, vengono create risorse di bucket, spazio di archiviazione di rete e volumi permanentiGoogle Cloud .

Crea un cluster ed esegui i workload utilizzando XPK

Accelerated Processing Kit (XPK) ti consente di eseguire rapidamente il provisioning e utilizzare i cluster. XPK genera un'infrastruttura preconfigurata e ottimizzata per l'addestramento, ideale quando l'esecuzione del workload è il tuo obiettivo principale.

Crea un cluster ed esegui i workload con le VM A3 Ultra utilizzando XPK:

Installa gli strumenti richiesti per soddisfare i prerequisiti XPK.
Copia il numero di versione dell'ultima release taggata di XPK, ad esempio "v0.8.0". Nel comando seguente, sostituisci XPK_TAG con il numero dell'ultima versione di XPK.

Apri una finestra della shell su una macchina Linux e inserisci i seguenti comandi per clonare XPK dal repository Git e installare i pacchetti richiesti:

  ## Setup virtual environment.
  VENV_DIR=~/venvp3
  python3 -m venv $VENV_DIR
  source $VENV_DIR/bin/activate
  ## Clone the repository.
  git clone --branch XPK_TAG https://github.com/google/xpk.git
  cd xpk
  ## Install required packages
  make install && export PATH=$PATH:$PWD/bin

Crea un cluster Standard utilizzando VM A3 Ultra, A3 Mega o A3 High. Puoi eseguire il provisioning dei nodi del cluster utilizzando la capacità riservata:
```
  python3 xpk.py cluster create \
     --cluster=CLUSTER_NAME \
     --device-type=DEVICE_TYPE \
     --zone=COMPUTE_ZONE  \
     --project=PROJECT_ID \
     --num-nodes=NUM_NODES \
     --reservation=RESERVATION_NAME
```
Sostituisci le seguenti variabili:
- CLUSTER_NAME: un nome per il cluster.
- DEVICE_TYPE: il tipo di dispositivo che vuoi utilizzare.
  - Per A3 Ultra, utilizza h200-141gb-8
  - Per A3 Mega, utilizza h100-mega-80gb-8.
  - Per A3 High, utilizza h100-80gb-8
- COMPUTE_ZONE: la zona di computing per il pool di nodi delle macchine A3 Ultra. Per utilizzare la capacità riservata, assicurati di utilizzare la zona in cui hai prenotato la capacità. Inoltre, in genere consigliamo di scegliere una zona vicina all'utente per ridurre al minimo la latenza.
- PROJECT_ID: il tuo Google Cloud ID progetto.
- NUM_NODES: il numero di nodi worker nel pool di nodi.
- RESERVATION_NAME: il nome della prenotazione.
  
  XPK offre argomenti aggiuntivi per la creazione di cluster, inclusi quelli per la creazione di cluster privati, la creazione di Vertex AI TensorBoard e l'utilizzo del provisioning automatico dei nodi. Per saperne di più, consulta la guida alla creazione di cluster per XPK.

Verifica che il cluster sia stato creato correttamente:

  python3 xpk.py cluster list --zone=COMPUTE_ZONE --project=PROJECT_ID

(Facoltativo) Esegui un workload per testare l'ambiente del cluster:
```
  python3 xpk.py workload create \
     --workload WORKLOAD_NAME --command "echo goodbye" \
     --cluster CLUSTER_NAME \
     --device-type=DEVICE_TYPE \
     --num-nodes=WORKLOAD_NUM_NODES \
     --zone=COMPUTE_ZONE \
     --project=PROJECT_ID
```
Sostituisci le seguenti variabili:
- WORKLOAD_NAME: il nome del tuo workload.
- CLUSTER_NAME: il nome del cluster.
- DEVICE_TYPE: il tipo di dispositivo che vuoi utilizzare.
  - Per A3 Ultra, utilizza h200-141gb-8
  - Per A3 Mega, utilizza h100-mega-80gb-8.
  - Per A3 High, utilizza h100-80gb-8
- WORKLOAD_NUM_NODES: il numero di nodi di lavoro utilizzati per l'esecuzione del workload.
- COMPUTE_ZONE: la zona di calcolo per il pool di nodi delle macchine A3 Ultra.
- PROJECT_ID: il tuo Google Cloud ID progetto.

Testare le prestazioni di rete

Ti consigliamo di convalidare la funzionalità dei cluster di cui è stato eseguito il provisioning. Per farlo, utilizza i test NCCL, ovvero i test NVIDIA Collective Communications Library (NCCL) ottimizzati per l'ambiente Google.

Eseguire benchmark riproducibili

Puoi riprodurre i benchmark di pre-addestramento per modelli open source di machine learning di grandi dimensioni sulle istanze VM A4, A3 Ultra e A3 Mega su GKE.

Ogni ricetta fornisce le istruzioni per completare le seguenti attività:

Prepara l'ambiente.
Esegui il benchmark.
Analizza i risultati dei benchmark. Sono inclusi i risultati del benchmark e i log dettagliati per ulteriori analisi.

Per visualizzare tutte le formule disponibili, consulta il repository GitHub delle formule GPU.

Modelli	Framework	Formula
Llama-3.1-70B	MaxText	Carico di lavoro di 32 nodi
Llama-3.1-70B	NeMo	Carico di lavoro di 32 nodi
Mixtral-8-7B	NeMo	Carico di lavoro di 32 nodi

Ripulisci le risorse create da Cluster Toolkit

Per evitare addebiti ricorrenti per le risorse utilizzate in questa pagina, pulisci le risorse di cui è stato eseguito il provisioning da Cluster Toolkit, incluse le reti VPC e il cluster GKE:

   cd ~/cluster-toolkit
   ./gcluster destroy CLUSTER_NAME/

Sostituisci CLUSTER_NAME con il nome del tuo cluster. Per i cluster creati con Cluster Toolkit, il nome del cluster si basa su DEPLOYMENT_NAME.

Passaggi successivi

Per scoprire di più sulla pianificazione dei workload sui cluster GKE utilizzando TAS e Kueue, consulta Pianificare i workload GKE con Topology Aware Scheduling.
Per scoprire di più sulla gestione degli eventi comuni pertinenti ai cluster GKE e ai carichi di lavoro AI, consulta Gestire i cluster GKE ottimizzati per l'AI.
Per informazioni su come testare l'ambiente per una corretta configurazione e ottimizzazione, consulta Panoramica dell'ottimizzazione del networking del cluster

Crea un cluster GKE ottimizzato per l'AI con la configurazione predefinita Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Scegliere come creare un cluster GKE ottimizzato per l'AI

Prima di iniziare

Scegli un'opzione di consumo e ottieni la capacità

Requisiti

Crea un cluster

Crea un cluster utilizzando Cluster Toolkit

A4X Max

A4X

A4

Con prenotazione

Avvio flessibile

Spot

A3 Ultra

Con prenotazione

Avvio flessibile

Spot

A3 Mega

Con prenotazione

Avvio flessibile

Spot

Crea un cluster ed esegui i workload utilizzando XPK

Testare le prestazioni di rete

Eseguire benchmark riproducibili

Ripulisci le risorse create da Cluster Toolkit

Passaggi successivi

Crea un cluster GKE ottimizzato per l'AI con la configurazione predefinita