Questo documento descrive i servizi di rete che configuri per i deployment di cluster e VM AI Hypercomputer. I servizi di rete specifici che configuri per AI Hypercomputer dipendono dall'opzione di deployment scelta per le VM o i cluster.
Questo documento è destinato ad architetti, ingegneri di rete e sviluppatori che vogliono comprendere i servizi di rete per i deployment di AI Hypercomputer. Questo documento presuppone una conoscenza di base dei concetti di networking cloud e computing distribuito. Per saperne di più sulle opzioni di deployment, consulta la panoramica sulla creazione di VM e cluster.
Questo documento descrive in dettaglio i servizi di rete che configuri per le seguenti opzioni di deployment:
- Networking per un deployment GKE con una configurazione predefinita
- Networking per un deployment GKE che utilizza una configurazione personalizzata
- Networking per il deployment del cluster Slurm
- Networking per le istanze di Compute Engine
Configurare il networking per i deployment GKE predefiniti
Quando crei un cluster GKE ottimizzato per l'AI con le impostazioni predefinite, definisci le impostazioni della rete nel progetto iniziale di Cluster Toolkit. Il progetto iniziale cambia in base al tipo di macchina selezionato. Ad esempio, il progetto iniziale di Cluster Toolkit esegue il deployment di un cluster GKE con una macchina A4.
Il progetto iniziale configura la rete nei seguenti modi:
- Utilizza il VPC predefinito: il progetto iniziale utilizza la rete Virtual Private Cloud predefinita per il cluster GKE principale.
- Crea due VPC aggiuntivi: il progetto iniziale configura due reti Virtual Private Cloud distinte. Una è per una seconda scheda di interfaccia di rete (NIC) host e l'altra è per il traffico di accesso diretto alla memoria remota (RDMA) da unità di elaborazione grafica (GPU) a GPU. Utilizzando questa configurazione multi-VPC, puoi migliorare l'isolamento della rete. Per saperne di più, consulta Ambiente multi-VPC environment.
- Definisce gli intervalli di indirizzi IP: il progetto iniziale imposta lo spazio di indirizzi IP privati per i nodi GKE. Configura gli intervalli IP secondari per pod e servizi. GKE utilizza l'aliasing degli indirizzi IP per evitare conflitti di indirizzi IP.
- Applica un profilo di rete ottimizzato per RDMA: il progetto iniziale applica un profilo di rete preimpostato e gestito da Google al VPC utilizzato per il traffico GPU. Questo profilo configura automaticamente la rete per le prestazioni ad alta velocità e a basso ritardo di cui RDMA ha bisogno. Per saperne di più, consulta Profili di rete per casi d'uso specifici.
- Automatizza la creazione di subnet per RDMA: per garantire le prestazioni ottimali, il progetto iniziale crea automaticamente otto subnet dedicate all'interno del VPC RDMA. Crea una subnet per ciascuna delle otto NIC RDMA su una VM con acceleratore.
- Configura le regole firewall: il progetto iniziale configura le regole firewall che consentono tutto il traffico Transmission Control Protocol (TCP), User Datagram Protocol (UDP) e Internet Control Message Protocol (ICMP) tra i nodi all'interno del cluster. In questo modo i nodi possono comunicare liberamente. Configura anche un intervallo CIDR (Classless Inter-Domain Routing) autorizzato per limitare l'accesso al piano di controllo del cluster GKE per motivi di sicurezza.
Networking per i deployment GKE con configurazione personalizzata
Quando hai bisogno di un controllo più granulare rispetto a quello fornito dai progetti iniziali di Cluster Toolkit predefiniti, configura manualmente gli oggetti di rete per un cluster GKE ottimizzato per l'AI. Questo approccio ti consente di personalizzare la configurazione di rete in base alle esigenze specifiche del tuo carico di lavoro.
La configurazione che utilizzi dipende dal fatto che tu intenda eseguire carichi di lavoro AI distribuiti:
- Per i carichi di lavoro non distribuiti: crea un cluster GKE senza GPUDirect RDMA. Questo metodo utilizza una singola rete VPC per tutte le comunicazioni.
- Per i carichi di lavoro distribuiti: crea un cluster GKE con GPUDirect RDMA abilitato. L'abilitazione di GPUDirect RDMA è essenziale per ottenere prestazioni ottimali su larga scala. Questa configurazione prevede un ambiente multi-VPC che separa il traffico per uso generico dalla comunicazione GPU-GPU a larghezza di banda elevata e bassa latenza.
Per istruzioni dettagliate passo passo sulla creazione di un cluster GKE personalizzato ottimizzato per l'AI per entrambi gli scenari, consulta Crea un cluster GKE personalizzato ottimizzato per l'AI.
Networking per i deployment di cluster Slurm
Puoi utilizzare Cluster Toolkit per eseguire il deployment di carichi di lavoro di computing ad alte prestazioni (HPC), AI e ML su Google Cloud tramite progetti iniziali altamente personalizzabili ed estensibili. Ad esempio, quando crei un cluster Slurm ottimizzato per l'AI con un tipo di macchina A4. Questa sezione spiega i servizi di rete configurati nel progetto iniziale A4, che ti aiuta a comprendere le impostazioni della rete che puoi modificare durante la creazione di cluster Slurm.
Durante il deployment, il progetto iniziale di Cluster Toolkit utilizza Packer per creare automaticamente un'immagine del sistema operativo (OS) personalizzata. Packer crea l'immagine avviando una VM temporanea ed eseguendo script per personalizzare il disco di avvio. Puoi personalizzare l'immagine utilizzando script di avvio, script shell o playbook Ansible. Il progetto iniziale utilizza quindi questa immagine personalizzata per installare il software di sistema richiesto per la gestione di cluster e carichi di lavoro sui nodi Slurm.
I componenti di rete configurati dal progetto iniziale sono i seguenti:
- Crea tre VPC distinti: il progetto iniziale crea un VPC principale per il piano di controllo Slurm, un VPC secondario per il traffico generico a livello di host e un VPC dedicato ad alte prestazioni per la comunicazione GPU-GPU. Questa separazione impedisce al traffico di gestione di interferire con il piano dati del carico di lavoro. Per saperne di più, consulta Ambiente multi-VPC environment.
- Applica un profilo di rete ottimizzato per RDMA: per il piano dati GPU, il progetto iniziale applica un profilo di rete preconfigurato e gestito da Google ottimizzato per RoCE. Crea automaticamente otto subnet, una per ogni NIC RDMA sulle VM con acceleratore. Per saperne di più, consulta Profili di rete per casi d'uso specifici.
- Riserva un intervallo di indirizzi IP per l'archiviazione condivisa: il progetto iniziale imposta un intervallo di indirizzi IP dedicato richiesto dal servizio Filestore.
Filestore fornisce la directory
/homecondivisa per il cluster. - Fornisce una rete di creazione di immagini isolata: il progetto iniziale crea un VPC temporaneo utilizzato solo durante il processo di creazione dell'immagine VM personalizzata per i nodi del cluster. In questo modo viene fornito un ambiente di rete isolato per le operazioni di Packer.
Per altre opzioni di deployment, consulta la documentazione di Cluster Toolkit.
Networking per le istanze di Compute Engine
Con Compute Engine, puoi creare VM autonome, istanze VM in blocco e gruppi di istanze gestite (MIG) per vari tipi di macchine ottimizzate per l'acceleratore.
Questi tipi di macchine richiedono una configurazione di rete multi-VPC per gestire diversi tipi di traffico. Questa configurazione separa il traffico generico da host a host dalla comunicazione GPU-GPU a larghezza di banda elevata. I requisiti di rete specifici variano a seconda del tipo di macchina.
Per informazioni dettagliate sulle NIC e sulla configurazione di rete per il tuo tipo di macchina, consulta Esaminare la larghezza di banda della rete e la disposizione delle NIC.
Per istruzioni passo passo su come creare queste reti VPC, consulta Crea reti VPC.
Passaggi successivi
- Per identificare il deployment migliore per il tuo carico di lavoro, consulta Configurazioni consigliate.
- Per comprendere il caso d'uso di ogni opzione di deployment, consulta la panoramica sulla creazione di VM e cluster.
- Per creare un cluster GKE ottimizzato per l'AI con la configurazione predefinita, consulta Crea un cluster GKE ottimizzato per l'AI con la configurazione predefinita.
- Per creare un cluster GKE personalizzato ottimizzato per l'AI, consulta Crea un cluster GKE personalizzato ottimizzato per l'AI.
- Per creare un cluster Slurm ottimizzato per l'AI con un tipo di macchina A4, consulta Crea un cluster Slurm ottimizzato per l'AI con un tipo di macchina A4.
- Per creare un'istanza ottimizzata per l'AI con A4 o A3 Ultra, consulta Create an AI-optimized instance with A4 or A3 Ultra.
- Per creare un'istanza ottimizzata per l'AI con A3 Mega o A3 High, consulta Crea un' istanza ottimizzata per l'AI con A3 Mega o A3 High.