Utilizzare un IP privato per l'addestramento serverless di Gemini Enterprise Agent Platform

L'utilizzo dell'IP privato per connetterti ai job di addestramento offre maggiore sicurezza di rete e una latenza di rete inferiore rispetto all'utilizzo dell'IP pubblico. Per utilizzare l'IP privato, devi utilizzare Virtual Private Cloud (VPC) per eseguire il peering della tua rete con qualsiasi tipo di job di addestramento serverless di Agent Platform di Gemini Enterprise. In questo modo, il codice di addestramento può accedere agli indirizzi IP privati all'interno delle tue Google Cloud reti on-premise o delle tue reti.

Questa guida mostra come eseguire job di addestramento serverless nella tua rete dopo aver già configurato il peering di rete VPC per eseguire il peering della rete con una risorsa CustomJob, HyperparameterTuningJob o personalizzata TrainingPipeline di Agent Platform.

Panoramica

Prima di inviare un job di addestramento serverless utilizzando l'IP privato, devi configurare l'accesso privato ai servizi per creare connessioni in peering tra la tua rete e Agent Platform. Se hai già configurato questa opzione, puoi utilizzare le connessioni in peering esistenti.

Questa guida tratta le seguenti attività:

  • Comprendere quali intervalli IP prenotare per l'addestramento serverless.
  • Verificare lo stato delle connessioni in peering esistenti.
  • Eseguire l'addestramento serverless di Agent Platform di Gemini Enterprise sulla tua rete.
  • Verificare se è in corso un addestramento attivo su una rete prima di eseguire l'addestramento su un'altra rete.
  • Verificare che il codice di addestramento possa accedere agli IP privati nella rete.

Prenotare intervalli IP per l'addestramento serverless

Quando prenoti un intervallo IP per i produttori di servizi, l'intervallo può essere utilizzato da Agent Platform e da altri servizi. Questa tabella mostra il numero massimo di job di addestramento paralleli che puoi eseguire con gli intervalli prenotati da /16 a /18, presupponendo che l'intervallo venga utilizzato quasi esclusivamente da Agent Platform. Se ti connetti ad altri produttori di servizi utilizzando lo stesso intervallo, alloca un intervallo più ampio per ospitarli, in modo da evitare l'esaurimento degli IP.

Configurazione della macchina per il job di addestramento Intervallo prenotato Numero massimo di job paralleli
Fino a 8 nodi.
Ad esempio: 1 replica primaria nel primo pool di worker, 6 repliche nel secondo pool di worker e 1 worker nel terzo pool di worker (per fungere da server parametri)
/16 63
/17 31
/18 15
Fino a 16 nodi.
Ad esempio: 1 replica primaria nel primo pool di worker, 14 repliche nel secondo pool di worker e 1 worker nel terzo pool di worker (per fungere da server parametri)
/16 31
/17 15
/18 7
Fino a 32 nodi.
Ad esempio: 1 replica primaria nel primo pool di worker, 30 repliche nel secondo pool di worker e 1 worker nel terzo pool di worker (per fungere da server parametri)
/16 15
/17 7
/18 3

Scopri di più sulla configurazione dei pool di worker per l'addestramento distribuito.

Controllare lo stato delle connessioni in peering esistenti

Se hai connessioni in peering esistenti che utilizzi con Agent Platform, puoi elencarle per verificarne lo stato:

gcloud compute networks peerings list --network NETWORK_NAME

Dovresti vedere che lo stato delle connessioni in peering è ACTIVE. Scopri di più sulle connessioni in peering attive.

Eseguire l'addestramento serverless

Quando esegui l'addestramento serverless, devi specificare il nome della rete a cui vuoi che Agent Platform abbia accesso.

A seconda di come esegui l'addestramento serverless, specifica la rete in uno dei seguenti campi API:

Se non specifichi un nome di rete, Agent Platform esegue l'addestramento serverless senza una connessione in peering e senza accesso agli IP privati nel tuo progetto.

Esempio: creazione di un CustomJob con gcloud CLI

L'esempio seguente mostra come specificare una rete quando utilizzi gcloud CLI per eseguire un CustomJob che utilizza un container predefinito. Se esegui l'addestramento serverless in un altro modo, aggiungi il campo networkcampo come descritto per il tipo di job di addestramento serverless che stai utilizzando.

  1. Crea un file config.yaml per specificare la rete. Se utilizzi Rete VPC condiviso, utilizza il numero del progetto host VPC.

    Assicurati che il nome della rete sia formattato correttamente:

    PROJECT_NUMBER=$(gcloud projects describe $PROJECT_ID --format="value(projectNumber)")
    
    cat <<EOF > config.yaml
    network: projects/PROJECT_NUMBER/global/networks/NETWORK_NAME
    EOF
    
  2. Crea un'applicazione di addestramento da eseguire su Agent Platform.

  3. Crea il CustomJob, passando il file config.yaml:

    gcloud ai custom-jobs create \
      --region=LOCATION \
      --display-name=JOB_NAME \
      --python-package-uris=PYTHON_PACKAGE_URIS \
      --worker-pool-spec=machine-type=MACHINE_TYPE,replica-count=REPLICA_COUNT,executor-image-uri=PYTHON_PACKAGE_EXECUTOR_IMAGE_URI,python-module=PYTHON_MODULE \
      --config=config.yaml
    

Per scoprire come sostituire i segnaposto in questo comando, consulta Creare job di addestramento personalizzati.

Eseguire job su reti diverse

Non puoi eseguire l'addestramento serverless su una nuova rete mentre stai ancora eseguendo l'addestramento serverless su un'altra rete. Prima di passare a un'altra rete, devi attendere il completamento di tutte le risorse CustomJob, HyperparameterTuningJob e TrainingPipeline personalizzate inviate oppure devi annullarle.

Testare l'accesso ai job di addestramento

Questa sezione spiega come verificare che una risorsa di addestramento serverless possa accedere agli IP privati nella rete.

  1. Crea un'istanza Compute Engine nella rete VPC.
  2. Controlla le regole firewall per assicurarti che non limitino l'ingresso dalla rete di Agent Platform. In caso affermativo, aggiungi una regola per assicurarti che la rete di Agent Platform possa accedere all'intervallo IP che hai prenotato per Agent Platform (e altri produttori di servizi).
  3. Configura un server locale sull'istanza VM per creare un endpoint a cui un CustomJob di Agent Platform possa accedere.
  4. Crea un'applicazione di addestramento Python da eseguire su Agent Platform. Anziché il codice di addestramento del modello, crea un codice che acceda all'endpoint configurato nel passaggio precedente.
  5. Segui l'esempio precedente per creare un CustomJob.

Problemi comuni

Questa sezione elenca alcuni problemi comuni relativi alla configurazione del peering di rete VPC con Agent Platform.

  • Quando configuri Agent Platform per utilizzare la tua rete, specifica il nome completo della rete:

    "projects/YOUR_PROJECT_NUMBER/global/networks/YOUR_NETWORK_NAME"

  • Assicurati di non eseguire l'addestramento serverless su una rete prima di eseguire l'addestramento serverless su un'altra rete.

  • Assicurati di aver allocato un intervallo IP sufficiente per tutti i produttori di servizi a cui si connette la tua rete, inclusa Agent Platform.

Per ulteriori informazioni sulla risoluzione dei problemi, consulta la guida alla risoluzione dei problemi relativi al peering di rete VPC.

Passaggi successivi