Inizia a utilizzare i cluster di addestramento

Se ti interessano i cluster di addestramento Vertex AI, contatta il tuo rappresentante di vendita per l'accesso.

Prima di poter eseguire il deployment del primo cluster sui cluster di addestramento Vertex AI, devi configurare il progetto e l'ambienteGoogle Cloud . Questa guida copre tutti i prerequisiti necessari, che rientrano in tre categorie principali:

  • Accesso al progetto: accesso al servizio, che avviene solo su invito.

  • Configurazione delle risorse: abilitazione delle API e configurazione dei servizi di rete VPC e di archiviazione richiesti.

  • Autorizzazioni utente: concessione dei ruoli IAM necessari per la gestione del cluster e l'accesso alle risorse.

Il completamento di questi passaggi prepara il progetto per un deployment riuscito.

Prerequisiti

Per utilizzare i cluster di addestramento, devi:

  1. Includi il tuo progetto nella lista consentita contattando il tuo rappresentante di vendita per l'accesso.
  2. Ottieni capacità per i cluster GPU nelle regioni supportate.
  3. Abilita le API necessarie, tra cui le API Compute Engine, Filestore, Cloud Storage, Managed Lustre (facoltativo), Hypercomputer Configuration Service e Vertex AI.
  4. Configura il networking assicurandoti che una rete esistente soddisfi condizioni specifiche (ad esempio, accesso privato Google, regole firewall) o creando una nuova rete VPC e una nuova subnet.
  5. Configura l'archiviazione creando un'istanza Filestore a livello di zona o di regione da utilizzare come directory /home e, facoltativamente, configurando un'Google Cloud istanza Managed Lustre.
  6. Concedi le autorizzazioni IAM agli utenti per la gestione dei cluster, l'accesso allo spazio di archiviazione e l'accesso SSH ai nodi del cluster, come descritto nella sezione Autorizzazioni IAM.

Aree geografiche supportate

  • us-central1
  • us-east1
  • us-east4
  • us-east5
  • us-south1
  • us-west1
  • us-west4
  • asia-southeast1
  • europe-west1
  • europe-west4
  • europe-north1

Autorizzazioni IAM

  1. Concedi il ruolo roles/aiplatform.admin agli utenti che gestiranno i tuoi cluster di addestramento.
  2. Concedi il ruolo roles/aiplatform.viewer agli utenti che devono solo visualizzare i cluster e le relative configurazioni.
  3. Concedi i seguenti ruoli IAM all'utente o al account di servizio che gestirà (creerà, eliminerà e aggiornerà) i cluster di addestramento gestito:

    Nome ruolo ID ruolo
    Compute Instance Admin (v1) roles/compute.instanceAdmin.v1
    Logs Writer roles/logging.logWriter
    Monitoring Metric Writer roles/monitoring.metricWriter
    Utente account di servizio roles/iam.serviceAccountUser
    Service Networking Admin roles/servicenetworking.networksAdmin
  4. Per consentire ai nodi del cluster di leggere e scrivere nei bucket Cloud Storage utilizzando Google Cloud Storage FUSE, concedi il ruolo Storage Object User (roles/storage.objectUser) aaccount di serviziont utilizzato dalle VM.

  5. Per l'accesso SSH ai nodi di accesso Slurm, concedi le seguenti autorizzazioni:

    Autorizzazioni Descrizioni Finalità
    Compute OS Login Accedi a una VM come utente standard (non amministratore). Se è necessario sudo, utilizza invece Compute OS Admin Login. Accedi tramite SSH al nodo di accesso di cui è stato eseguito il deployment
    Utente del tunnel con protezione IAP Accesso alle risorse tunnel che utilizzano Identity-Aware Proxy. Accedi tramite SSH al nodo di accesso di cui è stato eseguito il deployment

Abilita API

  1. Abilita l'API Google Compute Engine:

       gcloud services enable compute.googleapis.com
    
    
  2. Abilita il servizio di rete, poiché Filestore deve essere sottoposto a deployment prima di creare il cluster.

       gcloud services enable servicenetworking.googleapis.com
    
  3. Abilita l'API Cloud Storage:

        gcloud services enable storage.googleapis.com
    
  4. Abilita l'API Lustre (se utilizzi Lustre):

    gcloud services enable lustre.googleapis.com
    
    
  5. Abilita l'API HCS:

    gcloud services enable hypercomputecluster.googleapis.com
    
    
  6. Abilita l'API Vertex AI:

    gcloud services enable aiplatform.googleapis.com
    
    
  7. Abilita l'API Cloud Resource Manager:

    gcloud services enable cloudresourcemanager.googleapis.com
    
    

Passaggi successivi

Per una guida dettagliata alla creazione di un cluster di addestramento e all'esecuzione dei carichi di lavoro AI/ML, contatta il tuo rappresentante di vendita.