Crea un clúster de escala cero de Dataproc

En este documento, se describe cómo crear un clúster de Dataproc de escala cero.

Los clústeres de Dataproc de escala cero proporcionan una forma rentable de usar clústeres de Dataproc. A diferencia de los clústeres estándar de Dataproc que requieren al menos dos trabajadores principales, los clústeres de Dataproc de escala cero usan solo trabajadores secundarios que se pueden reducir a cero.

Los clústeres de Dataproc de escala cero son ideales para usarse como clústeres de larga duración que experimentan períodos de inactividad, como un clúster que aloja un notebook de Jupiter. Proporcionan un uso mejorado de los recursos mediante el uso de políticas de ajuste de escala automático de escala cero.

Características y limitaciones

Un clúster de Dataproc de escala cero comparte similitudes con un clúster estándar pero tiene las siguientes características y limitaciones únicas:

  • Requiere la versión de imagen 2.2.53 o posterior.
  • Solo admite trabajadores secundarios, no trabajadores principales.
  • Incluye servicios como YARN, pero no admite el sistema de archivos HDFS.

    • Para usar Cloud Storage como el sistema de archivos predeterminado, establece la propiedad del clúster core:fs.defaultFS en una ubicación del bucket de Cloud Storage (gs://BUCKET_NAME).
    • Si inhabilitas un componente durante la creación del clúster, también inhabilita HDFS.
  • No se puede convertir a un clúster estándar ni desde él.

  • Requiere una política de ajuste de escala automático para los tipos de clúster ZERO_SCALE.

  • Requiere seleccionar VMs flexibles como tipo de máquina.

  • No admite el componente Oozie.

  • No se puede crear desde la Google Cloud console.

Opcional: Configura una política de ajuste de escala automático

Puedes configurar una política de ajuste de escala automático para definir el ajuste de escala de trabajo secundario para un clúster de escala cero. Cuando lo hagas, ten en cuenta lo siguiente:

  • Establece el tipo de clúster en ZERO_SCALE.
  • Configura una política de ajuste de escala automático solo para la configuración del trabajador secundario.

Para obtener más información, consulta Crea una política de ajuste de escala automático.

Crea un clúster de Dataproc de escala cero

Crea un clúster de escala cero con la CLI de gcloud o la API de Dataproc.

gcloud

Ejecuta el gcloud dataproc clusters create comando de forma local en una ventana de la terminal o en Cloud Shell.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --cluster-type=zero-scale \
    --autoscaling-policy=AUTOSCALING_POLICY \
    --properties=core:fs.defaultFS=gs://BUCKET_NAME \
    --secondary-worker-machine-types="type=MACHINE_TYPE1[,type=MACHINE_TYPE2...][,rank=RANK]"
    ...other args

Reemplaza lo siguiente:

  • CLUSTER_NAME: nombre del clúster de Dataproc de escala cero.
  • REGION: una región disponible de Compute Engine.
  • AUTOSCALING_POLICY: el ID o el URI del recurso de la política de ajuste de escala automático.
  • BUCKET_NAME: nombre de tu bucket de Cloud Storage.
  • MACHINE_TYPE: tipo de máquina específico de Compute Engine, como n1-standard-4, e2-standard-8.
  • RANK: define la prioridad de una lista de tipos de máquinas.

REST

Crea un clúster de escala cero con una solicitud cluster.create de la API de REST de Dataproc:

¿Qué sigue?