Prima di poter eseguire il deployment del primo cluster sui cluster di addestramento Vertex AI, devi configurare il progetto e l'ambienteGoogle Cloud . Questa guida copre tutti i prerequisiti necessari, che rientrano in tre categorie principali:
Accesso al progetto: accesso al servizio, che avviene solo su invito.
Configurazione delle risorse: abilitazione delle API e configurazione dei servizi di rete VPC e di archiviazione richiesti.
Autorizzazioni utente: concessione dei ruoli IAM necessari per la gestione del cluster e l'accesso alle risorse.
Il completamento di questi passaggi prepara il progetto per un deployment riuscito.
Prerequisiti
Per utilizzare i cluster di addestramento, devi:
- Includi il tuo progetto nella lista consentita contattando il tuo rappresentante di vendita per l'accesso.
- Ottieni capacità per i cluster GPU nelle regioni supportate.
- Abilita le API necessarie, tra cui le API Compute Engine, Filestore, Cloud Storage, Managed Lustre (facoltativo), Hypercomputer Configuration Service e Vertex AI.
- Configura il networking assicurandoti che una rete esistente soddisfi condizioni specifiche (ad esempio, accesso privato Google, regole firewall) o creando una nuova rete VPC e una nuova subnet.
- Configura l'archiviazione creando un'istanza Filestore a livello di zona o di regione da utilizzare come directory
/homee, facoltativamente, configurando un'Google Cloud istanza Managed Lustre. - Concedi le autorizzazioni IAM agli utenti per la gestione dei cluster, l'accesso allo spazio di archiviazione e l'accesso SSH ai nodi del cluster, come descritto nella sezione Autorizzazioni IAM.
Aree geografiche supportate
us-central1us-east1us-east4us-east5us-south1us-west1us-west4asia-southeast1europe-west1europe-west4europe-north1
Autorizzazioni IAM
- Concedi il ruolo
roles/aiplatform.adminagli utenti che gestiranno i tuoi cluster di addestramento. - Concedi il ruolo
roles/aiplatform.vieweragli utenti che devono solo visualizzare i cluster e le relative configurazioni. Concedi i seguenti ruoli IAM all'utente o al account di servizio che gestirà (creerà, eliminerà e aggiornerà) i cluster di addestramento gestito:
Nome ruolo ID ruolo Compute Instance Admin (v1) roles/compute.instanceAdmin.v1Logs Writer roles/logging.logWriterMonitoring Metric Writer roles/monitoring.metricWriterUtente account di servizio roles/iam.serviceAccountUserService Networking Admin roles/servicenetworking.networksAdminPer consentire ai nodi del cluster di leggere e scrivere nei bucket Cloud Storage utilizzando Google Cloud Storage FUSE, concedi il ruolo Storage Object User (
roles/storage.objectUser) aaccount di serviziont utilizzato dalle VM.Per l'accesso SSH ai nodi di accesso Slurm, concedi le seguenti autorizzazioni:
Autorizzazioni Descrizioni Finalità Compute OS Login Accedi a una VM come utente standard (non amministratore). Se è necessario sudo, utilizza invece Compute OS Admin Login.Accedi tramite SSH al nodo di accesso di cui è stato eseguito il deployment Utente del tunnel con protezione IAP Accesso alle risorse tunnel che utilizzano Identity-Aware Proxy. Accedi tramite SSH al nodo di accesso di cui è stato eseguito il deployment
Abilita API
Abilita l'API Google Compute Engine:
gcloud services enable compute.googleapis.comAbilita il servizio di rete, poiché Filestore deve essere sottoposto a deployment prima di creare il cluster.
gcloud services enable servicenetworking.googleapis.comAbilita l'API Cloud Storage:
gcloud services enable storage.googleapis.comAbilita l'API Lustre (se utilizzi Lustre):
gcloud services enable lustre.googleapis.comAbilita l'API HCS:
gcloud services enable hypercomputecluster.googleapis.comAbilita l'API Vertex AI:
gcloud services enable aiplatform.googleapis.comAbilita l'API Cloud Resource Manager:
gcloud services enable cloudresourcemanager.googleapis.com
Passaggi successivi
Per una guida dettagliata alla creazione di un cluster di addestramento e all'esecuzione dei carichi di lavoro AI/ML, contatta il tuo rappresentante di vendita.