Networking

Se ti interessano i cluster di addestramento Vertex AI, contatta il tuo rappresentante di vendita per l'accesso.

I cluster di addestramento Vertex AI sono un servizio gestito Google Cloud di cui viene eseguito il provisioning come istanza Compute Engine all'interno del tuo VPC. Questo modello di deployment consente al servizio di connettersi in modo sicuro ad altri carichi di lavoro all'interno del tuo VPC, a servizi gestiti da Google o a reti multi-cloud.

Requisito MTU di rete

Per ottenere prestazioni di rete ottimali per l'infrastruttura di addestramento, devi configurare l'unità massima di trasmissione (MTU) della rete VPC.

Il valore MTU consigliato dipende dal tipo di macchina GPU nel cluster:

  • Per i nodi A3 Ultra e A4: utilizza un MTU di 8896.
  • Per i nodi A3 Mega: utilizza un MTU di 8244.

Puoi creare un nuovo VPC o utilizzarne uno esistente.

Deployment dei cluster di addestramento in un nuovo VPC (consigliato)

L'approccio consigliato è di eseguire il deployment del cluster di addestramento in una nuova rete VPC preconfigurata. In questo modo, l'impostazione MTU corretta viene applicata automaticamente ed evita di influire sui workload esistenti.

Esistono due passaggi principali per il deployment dei cluster di addestramento in un nuovo VPC:

  1. Crea la rete VPC: Crea una nuova rete VPC. Per attivare i frame jumbo, imposta l'MTU su 8896.

  2. Esegui il deployment del cluster: esegui il deployment del cluster di addestramento in questa rete appena configurata.

Seguendo questo ordine, le istanze VM del cluster erediteranno automaticamente l'impostazione MTU corretta al primo avvio.

Crea e configura una nuova VPC

  1. Crea la rete VPC. Per abilitare i frame jumbo, imposta NETWORK_MTU su 8896.
        # create VPC network
        gcloud compute networks create NETWORK \
          --project=PROJECT_ID \
          --subnet-mode=custom \
          --mtu=NETWORK_MTU
        
  2. Crea la subnet utilizzata per il deployment del cluster di training e aggiorna l'intervallo in base ai requisiti del tuo ambiente. In questo esempio, la subnet 192.168.0.0/19 viene utilizzata per il deployment del cluster di addestramento.
        # create VPC subnet
        gcloud compute networks subnets create SUBNETWORK \
          --project=PROJECT_ID \
          --network=NETWORK \
          --region=REGION \
          --enable-private-ip-google-access \
          --range=192.168.0.0/19
        
  3. Crea una regola firewall IAP che consenta la connettività SSH al cluster di training.
        gcloud compute firewall-rules create allow-ssh-ingress-from-iap \
        --direction=INGRESS   --action=allow   --rules=tcp:22 \
        --source-ranges=35.235.240.0/20 --network NETWORK
        
  4. Crea una regola firewall in entrata che consenta tutte le porte e tutti i protocolli alla subnet del cluster di addestramento.
       gcloud compute --project=PROJECT_ID firewall-rules create allow-internal \
       --direction=INGRESS --priority=1000 --network=NETWORK \
       --action=ALLOW --rules=tcp:1-65535,udp:1-65535,icmp \
       --source-ranges=192.168.0.0/19 --enable-logging
       

Deployment di cluster di addestramento in un VPC esistente

Se stai eseguendo il deployment del cluster di addestramento in una rete esistente con istanze Cloud Storage, ti consigliamo vivamente di utilizzare frame jumbo (MTU 8896) per garantire prestazioni ottimali. Prima di iniziare, verifica che i sistemi operativi e le applicazioni sulle VM esistenti possano supportare questa modifica.

L'implementazione di jumbo frame richiede l'aggiornamento dell'MTU del VPC, che deve essere eseguito durante una periodo di manutenzione pianificata per evitare l'instabilità della rete.

L'unica procedura sicura è arrestare prima tutte le istanze VM in esecuzione nella rete. La modifica dell'MTU mentre le VM sono attive comporta impostazioni non corrispondenti e una connettività inaffidabile.

Una volta arrestate tutte le VM, puoi procedere con questi passaggi:

  1. Modifica l'MTU della rete in base all'impostazione selezionata (ad esempio, 8896).
  2. Riavvia tutte le VM al termine dell'aggiornamento di rete.
  3. Aggiorna manualmente le VM non Linux. Tieni presente che questo riavvio non è sufficiente per tutti i sistemi operativi. Mentre le VM dalle immagini Linux pubbliche adottano automaticamente la nuova MTU, devi aggiornare manualmente l'impostazione MTU all'interno del sistema operativo per tutte le VM Windows e per tutte le VM con immagini personalizzate che non utilizzano DHCP per la configurazione MTU.

Altri requisiti:

  • Abilita l'accesso privato Google nella subnet utilizzata per il deployment del cluster.
  • Crea una regola firewall in entrata per concedere l'accesso IAP al cluster.
  • Crea una regola firewall in entrata per consentire tutto il traffico verso il cluster.

Passaggi successivi

Dopo aver preparato la rete VPC con le impostazioni MTU e le regole firewall corrette, i passaggi successivi consistono nel creare e proteggere il cluster di addestramento.

  • Verifica la configurazione di rete: prima di creare il cluster, esegui un test di connettività per verificare le impostazioni MTU e della rete VPC, soprattutto se hai modificato un VPC esistente.
  • Proteggi il cluster con un perimetro di servizio: per una maggiore sicurezza dei dati, utilizza i Controlli di servizio VPC per creare un perimetro di servizio attorno alle risorse Vertex AI. In questo modo si impedisce l'esfiltrazione dei dati.
  • Connettiti da un ambiente ibrido o multi-cloud: per accedere al cluster di addestramento da un data center on-premise o da un cloud pubblico, utilizza le opzioni di connettività ibrida diGoogle Cloud.