Prima di poter eseguire il deployment del primo cluster nei cluster di addestramento di Colab Enterprise, devi configurare il Google Cloud progetto e l'ambiente. Questa guida illustra tutti i prerequisiti necessari, suddivisi in tre categorie principali:
Accesso al progetto: ottenere l'accesso al servizio, che è solo su invito.
Configurazione delle risorse: abilitare le API e configurare i servizi di rete VPC e di archiviazione richiesti.
Autorizzazioni utente: concedere i ruoli IAM necessari per la gestione dei cluster e l'accesso alle risorse.
Il completamento di questi passaggi prepara il progetto per un deployment riuscito.
Prerequisiti
Per utilizzare i cluster di addestramento, devi:
- Inserire il tuo progetto nella lista consentita contattando il tuo rappresentante di vendita per l'accesso.
- Ottenere capacità per i cluster GPU nelle regioni supportate.
- Abilitare le API necessarie, tra cui le API Compute Engine, Filestore, Cloud Storage, Managed Lustre (facoltativo), Hypercomputer Configuration Service, e Agent Platform.
- Configurare la rete assicurandoti che una rete esistente soddisfi condizioni specifiche (ad esempio, accesso privato Google, regole firewall) o creando una nuova rete VPC e una nuova subnet.
- Configurare l'archiviazione creando un'istanza Filestore a livello di zona o di regione da utilizzare come directory
/homee, facoltativamente, configurando un'istanza Managed Lustre.Google Cloud - Concedere le autorizzazioni IAM agli utenti per la gestione dei cluster, l'accesso allo spazio di archiviazione e l'accesso SSH ai nodi del cluster, come descritto nella sezione Autorizzazioni IAM.
Aree geografiche supportate
us-central1us-east1us-east4us-east5us-south1us-west1us-west4asia-southeast1europe-west1europe-west4europe-north1
Autorizzazioni IAM
- Concedi il ruolo
roles/aiplatform.adminagli utenti che gestiranno i cluster di addestramento. - Concedi il ruolo
roles/aiplatform.vieweragli utenti che devono solo visualizzare i cluster e le relative configurazioni. Concedi i seguenti ruoli IAM all'utente o al account di servizio che gestirà (creerà, eliminerà e aggiornerà) i cluster di addestramento gestiti:
Nome ruolo ID ruolo Amministratore istanze Compute (v1) roles/compute.instanceAdmin.v1Logs Writer roles/logging.logWriterMonitoring Metric Writer roles/monitoring.metricWriterUtente account di servizio roles/iam.serviceAccountUserService Networking Admin roles/servicenetworking.networksAdminPer consentire ai nodi del cluster di leggere e scrivere nei bucket Cloud Storage utilizzando Cloud Storage FUSE, concedi il ruolo Utente oggetti Storage (
roles/storage.objectUser) al account di servizio utilizzato dalle VM.Per l'accesso SSH ai nodi di accesso Slurm, concedi le seguenti autorizzazioni:
Autorizzazioni Descrizioni Finalità Compute OS Login Accedi a una VM come utente standard (non amministratore). Se è necessario sudo, utilizza invece Compute OS Admin Login.Accedi tramite SSH al nodo di accesso di cui è stato eseguito il deployment IAP-secured Tunnel User Accedi alle risorse tunnel che utilizzano Identity-Aware Proxy. Accedi tramite SSH al nodo di accesso di cui è stato eseguito il deployment
Abilita API
Abilita l'API Compute Engine:
gcloud services enable compute.googleapis.comAbilita il networking di servizi, poiché Filestore deve essere sottoposto a deployment prima di creare il cluster.
gcloud services enable servicenetworking.googleapis.comAbilita l'API Cloud Storage:
gcloud services enable storage.googleapis.comAbilita l'API Lustre (se utilizzi Lustre):
gcloud services enable lustre.googleapis.comAbilita l'API HCS:
gcloud services enable hypercomputecluster.googleapis.comAbilita l'API Gemini Enterprise:
gcloud services enable aiplatform.googleapis.comAbilita l'API Resource Manager:
gcloud services enable cloudresourcemanager.googleapis.com
Passaggi successivi
Per una guida dettagliata sulla creazione di un cluster di addestramento e sull'esecuzione dei carichi di lavoro di AI/ML, contatta il tuo rappresentante di vendita.