Antes de desplegar tu primer clúster en clústeres de entrenamiento de Vertex AI, debes configurar tu proyecto y tu entorno deGoogle Cloud . Esta guía abarca todos los requisitos previos necesarios, que se dividen en tres categorías principales:
Acceso al proyecto: se obtiene acceso al servicio, que es solo por invitación.
Configuración de recursos: habilitar APIs y configurar los servicios de almacenamiento y de red de VPC necesarios.
Permisos de usuario: concede los roles de gestión de identidades y accesos necesarios para la gestión de clústeres y el acceso a recursos.
Si completas estos pasos, tu proyecto estará listo para implementarse correctamente.
Requisitos previos
Para usar clústeres de entrenamiento, debes hacer lo siguiente:
- Incluye tu proyecto en la lista de permitidos poniéndote en contacto con tu representante de ventas para obtener acceso.
- Obtener capacidad para clústeres de GPU en las regiones admitidas.
- Habilita las APIs necesarias, incluidas las APIs Compute Engine, Filestore, Cloud Storage, Lustre gestionado (opcional), Hypercomputer Configuration Service y Vertex AI.
- Configura la red. Para ello, asegúrate de que una red ya creada cumpla determinadas condiciones (por ejemplo, el acceso privado de Google o las reglas de cortafuegos) o crea una red y una subred de VPC.
- Configura el almacenamiento creando una instancia de Filestore zonal o regional que actúe como directorio
/homey, opcionalmente, configura una Google Cloud instancia de Lustre gestionada. - Concede permisos de gestión de identidades y accesos a los usuarios para gestionar clústeres, acceder al almacenamiento y acceder a los nodos del clúster mediante SSH, tal como se describe en la sección Permisos de gestión de identidades y accesos.
Regiones disponibles
us-central1us-east1us-east4us-east5us-south1us-west1us-west4asia-southeast1europe-west1europe-west4europe-north1
Permisos de gestión de identidades y accesos
- Concede el rol
roles/aiplatform.admina los usuarios que vayan a gestionar tus clústeres de entrenamiento. - Asigna el rol
roles/aiplatform.viewera los usuarios que solo necesiten ver clústeres y sus configuraciones. Asigna los siguientes roles de gestión de identidades y accesos (IAM) al usuario o a la cuenta de servicio que gestionará (creará, eliminará y actualizará) los clústeres de entrenamiento gestionados:
Nombre de función ID de rol Administrador de instancias de Compute (v1) roles/compute.instanceAdmin.v1Escritor de registros roles/logging.logWriterEscritor de las métricas de supervisión roles/monitoring.metricWriterUsuario de cuenta de servicio roles/iam.serviceAccountUserAdministrador de redes de servicio roles/servicenetworking.networksAdminPara permitir que los nodos del clúster lean y escriban en segmentos de Cloud Storage mediante Google Cloud Storage FUSE, asigna el rol Usuario de objetos de Storage (
roles/storage.objectUser) a la cuenta de servicio que usan las VMs.Para acceder a los nodos de inicio de sesión de Slurm mediante SSH, concede los siguientes permisos:
Permisos Descripciones Finalidad Compute OS Login Inicia sesión en una VM como usuario estándar (no administrador). Si necesitas sudo, usa Inicio de sesión de administrador de SO de Compute.Conectarse mediante SSH al nodo de inicio de sesión implementado Usuario de túneles protegidos mediante IAP Acceso a los recursos de túneles que utilizan Identity-Aware Proxy. Conectarse mediante SSH al nodo de inicio de sesión implementado
Habilitar APIs
Habilita la API de Google Compute Engine:
gcloud services enable compute.googleapis.comHabilita la red de servicios, ya que Filestore debe desplegarse antes de crear el clúster.
gcloud services enable servicenetworking.googleapis.comHabilita la API de Cloud Storage:
gcloud services enable storage.googleapis.comHabilita la API Lustre (si usas Lustre):
gcloud services enable lustre.googleapis.comHabilita la API de HCS:
gcloud services enable hypercomputecluster.googleapis.comHabilita la API de Vertex AI:
gcloud services enable aiplatform.googleapis.comHabilita la API de Cloud Resource Manager:
gcloud services enable cloudresourcemanager.googleapis.com
Siguientes pasos
Para obtener una guía detallada sobre cómo crear un clúster de entrenamiento y ejecutar tus cargas de trabajo de IA o aprendizaje automático, ponte en contacto con tu representante de ventas.