La documentación de Vertex AI ya no se actualiza

Los servicios de Vertex AI ahora forman parte de Gemini Enterprise Agent Platform. Consulta la información más actualizada en la documentación de Agent Platform.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Crear clúster

Si te interesan los clústeres de entrenamiento de Vertex AI, comunícate con tu representante de ventas para obtener acceso.

En esta página, se proporciona el método directo basado en la API para crear y administrar un clúster de entrenamiento. Aprenderás a definir la configuración completa de tu clúster, incluidos los nodos de acceso, las particiones de GPU de alto rendimiento, como la A4, y la configuración del orquestador de Slurm, todo en un archivo JSON. También se incluye cómo usar curl y las llamadas a la API de REST para implementar esta configuración, crear el clúster y administrar su ciclo de vida con las operaciones GET, LIST, UPDATE y DELETE.

Define la configuración del clúster

Crea un archivo JSON para definir la configuración completa de tu clúster de entrenamiento.

Si tu política de la organización prohíbe las direcciones IP públicas en las instancias de procesamiento, implementa el clúster de entrenamiento con el parámetro enable_public_ips: false y utiliza Cloud NAT para el tráfico de salida de Internet.

El primer paso para aprovisionar un clúster de entrenamiento es definir su configuración completa en un archivo JSON. Este archivo actúa como el plano de tu clúster y especifica todo, desde su nombre y configuración de red hasta el hardware para sus nodos de acceso y trabajadores.

En la siguiente sección, se proporcionan varios archivos de configuración JSON completos que sirven como plantillas prácticas para una variedad de casos de uso comunes. Consulta esta lista para encontrar el ejemplo que mejor se adapte a tus necesidades y úsalo como punto de partida.

Solo GPU con Filestore: Una configuración estándar para el entrenamiento de GPU de uso general.
GPU con Filestore y Managed Lustre: Una configuración avanzada para trabajos con uso intensivo de E/S.
GPU con secuencia de comandos de inicio: Muestra cómo ejecutar comandos personalizados en nodos durante el inicio.
Clúster solo de CPU: Una configuración básica que usa solo recursos de CPU.
CPU con configuración avanzada de Slurm: Un ejemplo que muestra la configuración personalizada del programador de Slurm.

Cada ejemplo está seguido de una descripción detallada de los parámetros clave que se usan en esa configuración específica.

Solo GPU con Filestore

Esta es la configuración estándar. Proporciona una instancia de Filestore que sirve como directorio /home para el clúster, adecuada para uso general y para almacenar datos del usuario.

En el siguiente ejemplo, se muestra el contenido de gpu-filestore.json. Esta especificación crea un clúster con una partición de GPU. Puedes usarla como plantilla y modificar valores como machineType o nodeCount para que se adapten a tus necesidades.

Para obtener una lista de parámetros, consulta Referencia del parámetro.

 {
  "display_name": "DISPLAY_NAME",
  "network": {
    "network": "projects/PROJECT_ID/global/networks/NETWORK",
    "subnetwork": "projects/PROJECT_ID/regions/REGION/subnetworks/SUBNETWORK"
  },
  "node_pools": [
    {
      "id": "login",
      "machine_spec": {
        "machine_type": "n2-standard-8"
      },
      "scaling_spec": {
        "min_node_count": MIN_NODE_COUNT,
        "max_node_count": MAX_NODE_COUNT
      },
      "enable_public_ips": true,
      "zone": "ZONE",
      "boot_disk": {
        "boot_disk_type": "pd-standard",
        "boot_disk_size_gb": 200
      }
    },
    {
      "id": "a4",
      "machine_spec": {
        "machine_type": "a4-highgpu-8g",
        "accelerator_type": "NVIDIA_B200",
        "accelerator_count": 8,
        "reservation_affinity": {
          "reservationAffinityType": "RESERVATION_AFFINITY_TYPE",
          "key": "compute.googleapis.com/reservation-name",
          "values": [
            "projects/PROJECT_ID/zones/ZONE/reservations/RESERVATION"
          ]
        }
      },
      "provisioning_model": "RESERVATION",
      "scaling_spec": {
        "min_node_count": MIN_NODE_COUNT,
        "max_node_count": MAX_NODE_COUNT
      },
      "enable_public_ips": true,
      "zone": "ZONE",
      "boot_disk": {
        "boot_disk_type": "hyperdisk-balanced",
        "boot_disk_size_gb": 200
      }
    }
  ],
  "orchestrator_spec": {
    "slurm_spec": {
      "home_directory_storage": "projects/PROJECT_ID/locations/ZONE/instances/FILESTORE",
      "partitions": [
        {
          "id": "a4",
          "node_pool_ids": [
            "a4"
          ]
        }
      ],
      "login_node_pool_id": "login"
    }
  }
}

GPU con Filestore y Managed Lustre

Esta configuración avanzada incluye la instancia estándar de Filestore, además de un sistema de archivos Lustre de alto rendimiento. Elige esta opción si tus trabajos de entrenamiento requieren acceso de alta capacidad a grandes conjuntos de datos.

Para obtener una lista de parámetros, consulta Referencia del parámetro.

{
  "display_name": "DISPLAY_NAME",
  "network": {
    "network": "projects/PROJECT_ID/global/networks/NETWORK",
    "subnetwork": "projects/PROJECT_ID/regions/asia-sREGION/subnetworks/SUBNETWORK"
  },
  "node_pools": [
    {
      "id": "login",
      "machine_spec": {
        "machine_type": "n2-standard-8"
      },
      "scaling_spec": {
        "min_node_count": MIN_NODE_COUNT,
        "max_node_count": MAX_NODE_COUNT
      },
      "enable_public_ips": true,
      "zone": "ZONE",
      "boot_disk": {
        "boot_disk_type": "pd-standard",
        "boot_disk_size_gb": 200
      },
      "lustres": [
        "projects/PROJECT_ID/locations/ZONE/instances/LUSTRE"
      ]
    },
    {
      "id": "a4",
      "machine_spec": {
        "machine_type": "a4-highgpu-8g",
        "accelerator_type": "NVIDIA_B200",
        "accelerator_count": 8,
        "reservation_affinity": {
          "reservation_affinity_type": RESERVATION_AFFINITY_TYPE,
          "key": "compute.googleapis.com/reservation-name",
          "values": [
            "projects/PROJECT_ID/zones/ZONE/reservations/RESERVATION_NAME"
          ]
        }
      },
      "provisioning_model": "RESERVATION",
      "scaling_spec": {
        "min_node_count": MIN_NODE_COUNT,
        "max_node_count": MAX_NODE_COUNT
      },
      "enable_public_ips": true,
      "zone": "ZONE",
      "boot_disk": {
        "boot_disk_type": "hyperdisk-balanced",
        "boot_disk_size_gb": 200
      },
      "lustres": [
        "projects/PROJECT_ID/locations/ZONE/instances/LUSTRE"
      ]
    }
  ],
  "orchestrator_spec": {
    "slurm_spec": {
      "home_directory_storage": "projects/PROJECT_ID/locations/ZONE/instances/FILESTORE",
      "partitions": [
        {
          "id": "a4",
          "node_pool_ids": [
            "a4"
          ]
        }
      ],
      "login_node_pool_id": "login"
    }
  }
}

GPU con secuencia de comandos de inicio

En este ejemplo, se muestra cómo agregar una secuencia de comandos personalizada a un grupo de nodos. Esta secuencia de comandos se ejecuta en todos los nodos de ese grupo durante el inicio. Para configurar esto, agrega los campos pertinentes a la definición de tu grupo de nodos , además de la configuración general. Para obtener una lista de parámetros y sus descripciones, consulta Referencia del parámetro.

{
  "display_name": "DISPLAY_NAME",
  "network": {
    "network": "projects/PROJECT_ID/global/networks/NETWORK",
    "subnetwork": "projects/PROJECT_ID/regions/REGION/subnetworks/SUBNETWORK"
  },
  "node_pools": [
    {
      "id": "login",
      "machine_spec": {
        "machine_type": "n2-standard-8"
      },
      "scaling_spec": {
        "min_node_count": MIN_NODE_COUNT,
        "max_node_count": MAX_NODE_COUNT
      },
      "enable_public_ips": true,
      "zone": "ZONE",
      "boot_disk": {
        "boot_disk_type": "pd-standard",
        "boot_disk_size_gb": 200
      },
      "startup_script" : "#Example script\nsudo mkdir -p /data\necho 'Script Finished'\n",
    },
    {
      "id": "a4",
      "machine_spec": {
        "machine_type": "a4-highgpu-8g",
        "accelerator_type": "NVIDIA_B200",
        "accelerator_count": 8,
        "reservation_affinity": {
          "reservationAffinityType": "RESERVATION_AFFINITY_TYPE",
          "key": "compute.googleapis.com/reservation-name",
          "values": [
            "projects/PROJECT_ID/zones/ZONE/reservations/RESERVATION_NAME"
          ]
        }
      },
      "provisioning_model": "PROVISIONING_MODEL",
      "scaling_spec": {
        "min_node_count": MIN_NODE_COUNT,
        "max_node_count": MAX_NODE_COUNT
      },
      "enable_public_ips": true,
      "zone": "ZONE",
      "boot_disk": {
        "boot_disk_type": "hyperdisk-balanced",
        "boot_disk_size_gb": 200
      },
      "startup_script" : "#Example script\nsudo mkdir -p /data\necho 'Script Finished'\n",
    }
  ],
  "orchestrator_spec": {
    "slurm_spec": {
      "home_directory_storage": "projects/PROJECT_ID/locations/ZONE/instances/FILESTORE",
      "partitions": [
        {
          "id": "a4",
          "node_pool_ids": [
            "a4"
          ]
        }
      ],
      "login_node_pool_id": "login"
    }
  }
}

Clúster solo de CPU

Para aprovisionar un entorno de clúster de entrenamiento, primero debes definir su configuración completa en un archivo JSON. Este archivo actúa como el plano de tu clúster y especifica todo, desde su nombre y configuración de red hasta el hardware para sus nodos de acceso y trabajadores.

Para obtener una lista de parámetros, consulta Referencia del parámetro.

{
  "display_name": "DISPLAY_NAME",
  "network": {
    "network": "projects/PROJECT_ID/global/networks/NETWORK",
    "subnetwork": "projects/PROJECT_ID/regions/REGION/subnetworks/SUBNETWORK"
  },
  "node_pools": [
    {
      "id": "cpu",
      "machine_spec": {
        "machine_type": "n2-standard-8"
      },
      "scaling_spec": {
        "min_node_count": MIN_NODE_COUNT,
        "max_node_count": MAX_NODE_COUNT
      },
      "zone": "ZONE",
      "enable_public_ips": true,
      "boot_disk": {
        "boot_disk_type": "pd-standard",
        "boot_disk_size_gb": 120
      }
    },
    {
      "id": "login",
      "machine_spec": {
        "machine_type": "n2-standard-8",
      }
      "scaling_spec": {
        "min_node_count": MIN_NODE_COUNT,
        "max_node_count": MAX_NODE_COUNT
      },
      "zone": "ZONE",
      "enable_public_ips": true,
      "boot_disk": {
        "boot_disk_type": "pd-standard",
        "boot_disk_size_gb": 120
      }
    },
  ],
  "orchestrator_spec": {
    "slurm_spec": {
      "home_directory_storage": "projects/PROJECT_ID/locations/ZONE/instances/FILESTORE",
      "partitions": [
        {
          "id": "cpu",
          "node_pool_ids": [
            "cpu"
          ]
        }
      ],
      "login_node_pool_id": "login"
    }
  }
}

CPU con configuración avanzada de Slurm

En este ejemplo, se muestra cómo personalizar el orquestador de Slurm con parámetros avanzados. Usa esta plantilla si necesitas un control detallado sobre el comportamiento de la programación de trabajos, como establecer ponderaciones de prioridad multifactor, configurar la apropiación de trabajos y ejecutar secuencias de comandos de prólogo y epílogo para la configuración y limpieza automáticas de trabajos.

Para obtener una lista de parámetros, consulta Referencia del parámetro.

{
  "display_name": "DISPLAY_NAME",
  "network": {
    "network": "projects/PROJECT_ID/global/networks/NETWORK",
    "subnetwork": "projects/PROJECT_ID/regions/REGION/subnetworks/SUBNETWORK"
  },
  "node_pools": [
    {
      "id": "cpu",
      "machine_spec": {
        "machine_type": "n2-standard-8"
      },
      "scaling_spec": {
        "min_node_count": MIN_NODE_COUNT,
        "max_node_count": MAX_NODE_COUNT
      },
      "zone": "ZONE",
      "enable_public_ips": true,
      "boot_disk": {
        "boot_disk_type": "pd-standard",
        "boot_disk_size_gb": 120
      }
    },
    {
      "id": "login",
      "machine_spec": {
        "machine_type": "n2-standard-8"
      },
      "scaling_spec": {
        "min_node_count": MIN_NODE_COUNT,
        "max_node_count": MAX_NODE_COUNT
      },
      "zone": "ZONE",
      "enable_public_ips": true,
      "boot_disk": {
        "boot_disk_type": "pd-standard",
        "boot_disk_size_gb": 120
      }
    }
  ],
  "orchestrator_spec": {
    "slurm_spec": {
      "home_directory_storage": "projects/PROJECT_ID/locations/ZONE/instances/FILESTORE",
      "accounting": {
        "accounting_storage_enforce": "ACCOUNTING_STORAGE_ENFORCE"
      },
      "scheduling": {
        "priority_type": "PRIORITY_TYPE",
        "priority_weight_age": PRIORITY_WEIGHT_AGE,
        "priority_weight_assoc": PRIORITY_WEIGHT_ASSOC,
        "priority_weight_fairshare": PRIORITY_WEIGHT_FAIRSHARE,
        "priority_weight_job_size": PRIORITY_WEIGHT_JOB_SIZE,
        "priority_weight_partition": PRIORITY_WEIGHT_PARTITION,
        "priority_weight_qos": PRIORITY_WEIGHT_QOS,
        "priority_weight_tres": "PRIORITY_WEIGHT_TRES",
        "preempt_type": "PREEMPT_TYPE",
        "preempt_mode": "PREEMPT_MODE",
        "preempt_exempt_time": "PREEMPT_EXEMPT_TIME"
      },
      "prolog_bash_scripts": [
        "#!/bin/bash\necho 'First prolog script running'",
        "#!/bin/bash\necho 'Second prolog script running'"
      ],
      "epilog_bash_scripts": [
        "#!/bin/bash\necho 'Epilog script running'"
      ]
      "partitions": [
        {
          "id": "cpu",
          "node_pool_ids": [
            "cpu"
          ]
        }
      ],
      "login_node_pool_id": "login"
    }
  }
}

Una vez que se define tu clúster en un archivo JSON, usa los siguientes comandos de la API de REST para implementarlo y administrarlo. En los ejemplos, se usa un alias gcurl, que es un acceso directo autenticado y conveniente para interactuar con los extremos de la API. Estos comandos abarcan todo el ciclo de vida, desde la implementación inicial del clúster hasta la actualización de un clúster, la obtención de su estado, la enumeración de todos los clústeres y, por último, la eliminación del clúster.

Autenticación

alias gcurl='curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json"'

Crea un archivo JSON

Crea un archivo JSON (por ejemplo, @cpu-cluster.json) para especificar la configuración de tu clúster de Model Training.

Implementa el clúster

Una vez que hayas creado el archivo de configuración JSON, podrás implementar el clúster con la API de REST.

Configura las variables de entorno

Antes de ejecutar el comando, configura las siguientes variables de entorno. Esto hace que el comando de la API sea más limpio y fácil de administrar.

PROJECT_ID: Es el ID del proyecto en el que se creará el clúster. Google Cloud
REGION: Es la Google Cloud región del clúster y sus recursos.
ZONE: Es la Google Cloud zona en la que se aprovisionarán los recursos del clúster.
CLUSTER_ID: Es un identificador único para tu clúster de entrenamiento, que también se usa como prefijo para nombrar recursos relacionados.

Ejecuta el comando create

Ahora, ejecuta el siguiente comando de gcurl. Usa el archivo JSON (en este ejemplo, cpu-cluster.json) como cuerpo de la solicitud y las variables de entorno que acabas de configurar para construir el extremo de API y los parámetros de consulta.

  gcurl -X POST -d @cpu-cluster.json https://REGION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/REGION/modelDevelopmentClusters?model_development_cluster_id=CLUSTER_ID

Una vez que comience la implementación, se generará un ID de operación. Asegúrate de copiar este ID. Lo necesitarás para validar tu clúster en el siguiente paso.

  gcurl -X POST -d @cpu-cluster.json https://us-central1-aiplatform.googleapis.com/v1beta1/projects/managedtraining-project/locations/us-central1/modelDevelopmentClusters?model_development_cluster_id=training
  {
      "name": "projects/1059558423163/locations/us-central1/operations/2995239222190800896",
      "metadata": {
      "@type": "type.googleapis.com/google.cloud.aiplatform.v1beta1.CreateModelDevelopmentClusterOperationMetadata",
      "genericMetadata": {
        "createTime": "2025-10-24T14:16:59.233332Z",
        "updateTime": "2025-10-24T14:16:59.233332Z"
      },
      "progressMessage": "Create Model Development Cluster request received, provisioning..."
  }

Valida la implementación del clúster

Haz un seguimiento del progreso de la implementación con el ID de operación que se proporcionó cuando implementaste el clúster. Por ejemplo, 2995239222190800896 es el ID de operación en el ejemplo citado anteriormente.

    gcurl https://REGION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/operations/OPERATION_ID

En resumen

Enviar la configuración del clúster con el comando POST de gcurl inicia el aprovisionamiento del clúster, que es una operación asíncrona de larga duración. La API muestra de inmediato una respuesta que contiene un Operation ID. Es fundamental guardar este ID, ya que lo usarás en los siguientes pasos para supervisar el progreso de la implementación, verificar que el clúster se haya creado correctamente y administrar su ciclo de vida.

Referencia del parámetro

En la siguiente lista, se describen todos los parámetros que se usan en los ejemplos de configuración. Los parámetros se organizan en grupos lógicos según el recurso que configuran.

Configuración general y de red

DISPLAY_NAME: Es un nombre único para tu clúster de entrenamiento. La cadena solo puede contener caracteres alfanuméricos en minúscula, debe comenzar con una letra y está limitada a 10 caracteres.
PROJECT_ID: Es el ID del Google Cloud proyecto de.
REGION: Es la Google Cloud región en la que se ubicarán el clúster y sus recursos.
NETWORK: Es la red de nube privada virtual que se usará para los recursos del clúster.
ZONE: Es la Google Cloud zona del clúster y sus recursos.
SUBNETWORK: Es la subred que se usará para los recursos del clúster.

Configuración de grupos de nodos

Los siguientes parámetros se usan para definir los grupos de nodos para los nodos de acceso y trabajadores.

Configuración común del grupo de nodos

ID: Es un identificador único para el grupo de nodos dentro del clúster (por ejemplo, "login", "a4", "cpu").
PROVISIONING_MODEL: Es el modelo de aprovisionamiento para el nodo trabajador (por ejemplo, ON_DEMAND, SPOT, RESERVATION, FLEX_START).
MACHINE_TYPE: Es el tipo de máquina para el nodo trabajador. Los valores admitidos son a3-megagpu-8g, a3-ultragpu-8g, a4-highgpu-8g.
MIN_NODE_COUNT: El MIN_NODE_COUNT debe ser el mismo que el MAX_NODE_COUNT.
MAX_NODE_COUNT: Para el grupo de nodos de acceso, el MAX_NODE_COUNT debe ser el mismo que el MIN_NODE_COUNT.
ENABLE_PUBLIC_IPS: Es un valor booleano (true o false) para determinar si el nodo de acceso tiene una dirección IP pública.
BOOT_DISK_TYPE: Es el tipo de disco de arranque para el nodo de acceso (por ejemplo, pd-standard, pd-ssd).
BOOT_DISK_SIZE_GB: Es el tamaño del disco de arranque en GB para el nodo de acceso.

Configuración específica del trabajador

ACCELERATOR_TYPE: Es el acelerador de GPU correspondiente que se adjuntará a los nodos trabajadores. Los valores admitidos son los siguientes:
- NVIDIA_H100_MEGA_80GB
- NVIDIA_H200_141GB
- NVIDIA_B200
ACCELERATOR_COUNT: Es la cantidad de aceleradores que se adjuntarán a cada nodo trabajador.
RESERVATION_AFFINITY_TYPE: Es la afinidad de reserva para el grupo de nodos (por ejemplo, SPECIFIC_RESERVATION).
RESERVATION_NAME: Es el nombre de la reserva que se usará para el grupo de nodos.

Configuración del orquestador y el almacenamiento

Estos campos se definen dentro del orchestrator_spec.slurm_spec bloque del archivo JSON.

Configuración principal de Slurm y almacenamiento

FILESTORE (corresponde a home_directory_storage): Es el nombre completo del recurso de la instancia de Filestore que se activará como el directorio /home.
LUSTRE (corresponde a lustres dentro de un objeto node_pools ): Es una lista de instancias de Managed Lustre preexistentes para activar en los nodos del clúster para el acceso a archivos de alto rendimiento.
LOGIN_NODE_POOL_ID (corresponde a login_node_pool_id): Es el ID del grupo de nodos que se debe usar para los nodos de acceso.
partitions: Es una lista de objetos de partición, en la que cada objeto requiere un id y una lista de node_pool_ids.

Configuración avanzada de Slurm

prolog_bash_scripts: Es una lista de cadenas, en la que cada cadena contiene el contenido completo de una secuencia de comandos de Bash que se ejecutará antes de que comience un trabajo.
epilog_bash_scripts: Es una lista de cadenas, en la que cada cadena contiene el contenido completo de una secuencia de comandos de Bash que se ejecutará después de que se complete un trabajo.
ACCOUNTING_STORAGE_ENFORCE: Aplica límites de contabilidad para el uso del almacenamiento.
PRIORITY_TYPE: Es el algoritmo de prioridad de programación que se usará (por ejemplo, priority/multifactor).
priority_weight_*: Es un conjunto de valores enteros que asignan peso a diferentes factores en el cálculo de prioridad de programación (por ejemplo, priority_weight_age,priority_weight_fairshare).
PREEMPT_TYPE: Es el complemento de apropiación que se usará (por ejemplo, preempt/partition_prio).
PREEMPT_MODE: Es el modo para el complemento de apropiación (por ejemplo, REQUEUE).
PREEMPT_EXEMPT_TIME: Es el tiempo después de que comienza un trabajo durante el cual no se puede apropiar.

¿Qué sigue?

Usa tu clúster de entrenamiento persistente activo para ejecutar tus cargas de trabajo de aprendizaje automático.

Ejecuta un trabajo en tu clúster: Envía un CustomJob para ejecutar un trabajo de entrenamiento en tu clúster persistente.
- Obtén información para ejecutar un trabajo de entrenamiento distribuido.
Organiza tu entrenamiento con Vertex AI Pipelines: Para flujos de trabajo repetibles y de nivel de producción, automatiza el proceso de envío de trabajos con Vertex AI Pipelines.
- Obtén información para organizar trabajos en un clúster de entrenamiento.
Visualiza y administra tu clúster: Enumera los clústeres existentes, verifica su estado, y visualiza los detalles de configuración con Google Cloud CLI o la Google Cloud consola.
- Obtén información para administrar tu clúster de entrenamiento.
Borra tu clúster para dejar de generar costos: Los clústeres de entrenamiento son persistentes y generan costos mientras están activos.
- Obtén información para borrar tu clúster de entrenamiento.

La documentación de Vertex AI ya no se actualiza

Crear clúster Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Define la configuración del clúster

Solo GPU con Filestore

GPU con Filestore y Managed Lustre

GPU con secuencia de comandos de inicio

Clúster solo de CPU

CPU con configuración avanzada de Slurm

Autenticación

Crea un archivo JSON

Implementa el clúster

Configura las variables de entorno

Ejecuta el comando create

Valida la implementación del clúster

En resumen

Referencia del parámetro

Configuración general y de red

Configuración de grupos de nodos

Configuración común del grupo de nodos

Configuración específica del trabajador

Configuración del orquestador y el almacenamiento

Configuración principal de Slurm y almacenamiento

Configuración avanzada de Slurm

¿Qué sigue?

Crear clúster