Inizia a utilizzare i cluster di addestramento

Se ti interessano i cluster di addestramento di Colab Enterprise, contatta il tuo rappresentante di vendita per l'accesso.

Prima di poter eseguire il deployment del primo cluster nei cluster di addestramento di Colab Enterprise, devi configurare il Google Cloud progetto e l'ambiente. Questa guida illustra tutti i prerequisiti necessari, suddivisi in tre categorie principali:

  • Accesso al progetto: ottenere l'accesso al servizio, che è solo su invito.

  • Configurazione delle risorse: abilitare le API e configurare i servizi di rete VPC e di archiviazione richiesti.

  • Autorizzazioni utente: concedere i ruoli IAM necessari per la gestione dei cluster e l'accesso alle risorse.

Il completamento di questi passaggi prepara il progetto per un deployment riuscito.

Prerequisiti

Per utilizzare i cluster di addestramento, devi:

  1. Inserire il tuo progetto nella lista consentita contattando il tuo rappresentante di vendita per l'accesso.
  2. Ottenere capacità per i cluster GPU nelle regioni supportate.
  3. Abilitare le API necessarie, tra cui le API Compute Engine, Filestore, Cloud Storage, Managed Lustre (facoltativo), Hypercomputer Configuration Service, e Agent Platform.
  4. Configurare la rete assicurandoti che una rete esistente soddisfi condizioni specifiche (ad esempio, accesso privato Google, regole firewall) o creando una nuova rete VPC e una nuova subnet.
  5. Configurare l'archiviazione creando un'istanza Filestore a livello di zona o di regione da utilizzare come directory /home e, facoltativamente, configurando un'istanza Managed Lustre.Google Cloud
  6. Concedere le autorizzazioni IAM agli utenti per la gestione dei cluster, l'accesso allo spazio di archiviazione e l'accesso SSH ai nodi del cluster, come descritto nella sezione Autorizzazioni IAM.

Aree geografiche supportate

  • us-central1
  • us-east1
  • us-east4
  • us-east5
  • us-south1
  • us-west1
  • us-west4
  • asia-southeast1
  • europe-west1
  • europe-west4
  • europe-north1

Autorizzazioni IAM

  1. Concedi il ruolo roles/aiplatform.admin agli utenti che gestiranno i cluster di addestramento.
  2. Concedi il ruolo roles/aiplatform.viewer agli utenti che devono solo visualizzare i cluster e le relative configurazioni.
  3. Concedi i seguenti ruoli IAM all'utente o al account di servizio che gestirà (creerà, eliminerà e aggiornerà) i cluster di addestramento gestiti:

    Nome ruolo ID ruolo
    Amministratore istanze Compute (v1) roles/compute.instanceAdmin.v1
    Logs Writer roles/logging.logWriter
    Monitoring Metric Writer roles/monitoring.metricWriter
    Utente account di servizio roles/iam.serviceAccountUser
    Service Networking Admin roles/servicenetworking.networksAdmin
  4. Per consentire ai nodi del cluster di leggere e scrivere nei bucket Cloud Storage utilizzando Cloud Storage FUSE, concedi il ruolo Utente oggetti Storage (roles/storage.objectUser) al account di servizio utilizzato dalle VM.

  5. Per l'accesso SSH ai nodi di accesso Slurm, concedi le seguenti autorizzazioni:

    Autorizzazioni Descrizioni Finalità
    Compute OS Login Accedi a una VM come utente standard (non amministratore). Se è necessario sudo, utilizza invece Compute OS Admin Login. Accedi tramite SSH al nodo di accesso di cui è stato eseguito il deployment
    IAP-secured Tunnel User Accedi alle risorse tunnel che utilizzano Identity-Aware Proxy. Accedi tramite SSH al nodo di accesso di cui è stato eseguito il deployment

Abilita API

  1. Abilita l'API Compute Engine:

       gcloud services enable compute.googleapis.com
    
    
  2. Abilita il networking di servizi, poiché Filestore deve essere sottoposto a deployment prima di creare il cluster.

       gcloud services enable servicenetworking.googleapis.com
    
  3. Abilita l'API Cloud Storage:

        gcloud services enable storage.googleapis.com
    
  4. Abilita l'API Lustre (se utilizzi Lustre):

    gcloud services enable lustre.googleapis.com
    
    
  5. Abilita l'API HCS:

    gcloud services enable hypercomputecluster.googleapis.com
    
    
  6. Abilita l'API Gemini Enterprise:

    gcloud services enable aiplatform.googleapis.com
    
    
  7. Abilita l'API Resource Manager:

    gcloud services enable cloudresourcemanager.googleapis.com
    
    

Passaggi successivi

Per una guida dettagliata sulla creazione di un cluster di addestramento e sull'esecuzione dei carichi di lavoro di AI/ML, contatta il tuo rappresentante di vendita.