Servizi di rete per i deployment

Questo documento descrive i servizi di rete che configuri per i deployment di cluster e VM AI Hypercomputer. I servizi di rete specifici che configuri per AI Hypercomputer dipendono dall'opzione di deployment scelta per le tue VM o i tuoi cluster.

Questo documento è destinato ad architetti, ingegneri di rete e sviluppatori che vogliono comprendere i servizi di rete per le loro implementazioni di AI Hypercomputer. Questo documento presuppone che tu abbia una conoscenza di base dei concetti di networking cloud e di calcolo distribuito. Per ulteriori informazioni sulle opzioni di deployment, consulta Panoramica della creazione di VM e cluster.

Questo documento descrive in dettaglio i servizi di rete che configuri per le seguenti opzioni di deployment:

Configura il networking per i deployment GKE predefiniti

Quando crei un cluster GKE ottimizzato per l'AI con le impostazioni predefinite, definisci le impostazioni di rete nel blueprint di Cluster Toolkit. Il progetto cambia in base al tipo di macchina selezionato. Ad esempio, il progetto iniziale di Cluster Toolkit esegue il deployment di un cluster GKE con una macchina A4.

Il blueprint configura la rete nei seguenti modi:

  • Utilizza il VPC predefinito:il blueprint utilizza la rete Virtual Private Cloud predefinita per il cluster GKE principale.
  • Crea due VPC aggiuntivi:il blueprint configura due reti Virtual Private Cloud distinte. Una è per una seconda scheda di interfaccia di rete (NIC) host e l'altra è per il traffico di accesso diretto alla memoria remota (RDMA) da unità di elaborazione grafica (GPU) a GPU. Utilizzando questa configurazione di più VPC, puoi migliorare l'isolamento della rete. Per saperne di più, consulta Ambiente multi-VPC.
  • Definisce gli intervalli di indirizzi IP:il blueprint imposta lo spazio degli indirizzi IP privati per i nodi GKE. Configura gli intervalli IP secondari per pod e servizi. GKE utilizza l'aliasing degli indirizzi IP per evitare conflitti di indirizzi IP.
  • Applica un profilo di rete ottimizzato per RDMA:il blueprint applica un profilo di rete preimpostato e gestito da Google al VPC utilizzato per il traffico GPU. Questo profilo configura automaticamente la rete per le prestazioni ad alta velocità e a basso ritardo richieste da RDMA. Per ulteriori informazioni, vedi Profili di rete per casi d'uso specifici.
  • Automatizza la creazione di subnet per RDMA: per garantire le migliori prestazioni, il blueprint crea automaticamente otto subnet dedicate all'interno del VPC RDMA. Viene creata una subnet per ciascuna delle otto NIC RDMA su una VM con acceleratore.
  • Configura le regole firewall:il progetto configura le regole firewall che consentono tutto il traffico Transmission Control Protocol (TCP), User Datagram Protocol (UDP) e Internet Control Message Protocol (ICMP) tra i nodi all'interno del cluster. In questo modo, i nodi possono comunicare liberamente. Configura anche un intervallo CIDR (Classless Inter-Domain Routing) autorizzato per limitare l'accesso al control plane del cluster GKE per motivi di sicurezza.

Networking per i deployment GKE con configurazione personalizzata

Quando hai bisogno di un controllo più granulare di quello fornito dai progetti Cluster Toolkit predefiniti, configura manualmente gli oggetti di rete per un cluster GKE ottimizzato per l'AI. Questo approccio ti consente di personalizzare la configurazione di rete in base alle esigenze specifiche del tuo workload.

La configurazione che utilizzi dipende dal fatto che tu preveda di eseguire workload di AI distribuita:

  • Per i carichi di lavoro non distribuiti: crea un cluster GKE senza GPUDirect RDMA. Questo metodo utilizza una singola rete VPC per tutte le comunicazioni.
  • Per i carichi di lavoro distribuiti: crea un cluster GKE con GPUDirect RDMA abilitato. L'attivazione di GPUDirect RDMA è essenziale per ottenere prestazioni ottimali su larga scala. Questa configurazione prevede un ambiente multi-VPC che separa il traffico generico dalla comunicazione da GPU a GPU a larghezza di banda elevata e bassa latenza.

Per istruzioni dettagliate passo passo sulla creazione di un cluster GKE personalizzato ottimizzato per l'AI per entrambi gli scenari, vedi Creare un cluster GKE personalizzato ottimizzato per l'AI.

Networking per i deployment del cluster Slurm

Puoi utilizzare Cluster Toolkit per eseguire il deployment di workload di computing ad alte prestazioni (HPC), AI e ML su Google Cloud tramite blueprint altamente personalizzabili ed estensibili. Ad esempio, quando crei un cluster Slurm ottimizzato per l'AI con un tipo di macchina A4. Questa sezione descrive i servizi di rete configurati nel blueprint A4, che ti aiuta a comprendere le impostazioni di rete che puoi modificare durante la creazione dei cluster Slurm.

Durante il deployment, il blueprint Cluster Toolkit utilizza Packer per creare automaticamente un'immagine del sistema operativo (OS) personalizzato. Packer crea l'immagine avviando una VM temporanea ed eseguendo script per personalizzare il disco di avvio. Puoi personalizzare l'immagine utilizzando script di avvio, script shell o playbook Ansible. Il blueprint utilizza quindi questa immagine personalizzata per installare il software di sistema richiesto per la gestione di cluster e workload sui nodi Slurm.

I componenti di rete configurati dal progetto iniziale sono i seguenti:

  • Crea tre VPC distinti: il blueprint crea un VPC principale per il control plane Slurm, un VPC secondario per il traffico generale a livello di host e un VPC dedicato ad alte prestazioni per la comunicazione GPU-GPU. Questa separazione impedisce al traffico di gestione di interferire con il piano dati del carico di lavoro. Per saperne di più, consulta Ambiente multi-VPC.
  • Applica un profilo di rete ottimizzato per RDMA: per il piano dati GPU, il blueprint applica un profilo di rete preconfigurato e gestito da Google ottimizzato per RoCE. Crea automaticamente otto subnet, una per ogni NIC RDMA sulle VM dell'acceleratore. Per saperne di più, consulta Profili di rete per casi d'uso specifici.
  • Riserva un intervallo di indirizzi IP per l'archiviazione condivisa:il blueprint imposta un intervallo di indirizzi IP dedicato richiesto dal servizio Filestore. Filestore fornisce la directory condivisa /home per il cluster.
  • Fornisce una rete di creazione di immagini isolata:il blueprint crea una rete VPC temporanea utilizzata solo durante il processo di creazione dell'immagine VM personalizzata per i nodi del cluster. In questo modo viene fornito un ambiente di rete isolato per le operazioni di Packer.

Per ulteriori opzioni di deployment, consulta la documentazione di Cluster Toolkit.

Networking per le istanze di Compute Engine

Con Compute Engine, puoi creare VM autonome, istanze VM collettive e gruppi di istanze gestite (MIG) per vari tipi di macchine ottimizzati per gli acceleratori.

Questi tipi di macchine richiedono una configurazione di rete multi-VPC per gestire diversi tipi di traffico. Questa configurazione separa il traffico host-to-host generale dalla comunicazione GPU-to-GPU a larghezza di banda elevata. I requisiti di rete specifici variano in base al tipo di macchina.

Per informazioni dettagliate sulle NIC e sulla configurazione di rete per il tuo tipo di macchina, consulta Controlla la larghezza di banda della rete e la disposizione del NIC.

Per istruzioni passo passo su come creare queste reti VPC, consulta Crea reti VPC.

Passaggi successivi