Eliminación programada de clústeres

Para evitar incurrir en Google Cloud cargos por un clúster inactivo, usa la función de eliminación programada de clústeres de Managed Service para Apache Spark's Cluster Scheduled Deletion feature cuando crees un clúster. Esta característica proporciona opciones para borrar un clúster cuando ocurren los siguientes eventos:

Acciones que inhabilitan la eliminación programada

Mientras se ejecuta un clúster, las siguientes acciones inhabilitan la eliminación programada hasta que se revierte la acción de inhabilitación:

Calcula el tiempo de inactividad del clúster

Puedes usar la eliminación programada para borrar un clúster después de un tiempo de inactividad del clúster especificado. El tiempo de inactividad se calcula después de que se crea el clúster y se completa el aprovisionamiento del clúster. El cálculo del tiempo de inactividad comienza cuando un clúster no tiene trabajos en ejecución.

La propiedad del clúster dataproc:dataproc.cluster-ttl.consider-yarn-activity afecta el cálculo del tiempo de inactividad del clúster de la siguiente manera:

  • Esta propiedad está habilitada (establecida en true) de forma predeterminada.
  • Cuando esta propiedad está habilitada, la actividad de YARN y de la API de Jobs de Managed Service para Apache Spark debe estar inactiva para iniciar y continuar incrementando el cálculo del tiempo de inactividad del clúster.
    • La actividad de YARN incluye aplicaciones de YARN pendientes y en ejecución.
    • La actividad de la API de Jobs de Managed Service para Apache Spark incluye trabajos pendientes y en ejecución enviados a la API de Jobs de Managed Service para Apache Spark.
  • Cuando esta propiedad se establece en false, el cálculo del tiempo de inactividad del clúster comienza y continúa solo cuando la actividad de la API de Jobs de Managed Service para Apache Spark está inactiva.

La propiedad dataproc:dataproc.cluster-ttl.consider-yarn-activity se aplica a los clústeres creados con versiones de imagen lanzadas a partir del 1.4.64, 1.5.39, 2.0.13 y versiones de imagen posteriores. En el caso de los clústeres creados con versiones de imagen anteriores, solo se considera la actividad de la API de Jobs de Managed Service para Apache Spark para calcular el tiempo de inactividad del clúster.

Usa la eliminación programada de clústeres

Puedes establecer valores de eliminación programada cuando creas un clúster con la Google Cloud CLI, la API de Dataproc o la Google Cloud consola. Después de crear el clúster, puedes actualizarlo para cambiar o borrar los valores de eliminación programada establecidos anteriormente en el clúster.

gcloud CLI

Puedes crear o actualizar valores de eliminación programada en un clúster pasando las marcas y los valores que se enumeran en la siguiente tabla a los gcloud dataproc clusters create o gcloud dataproc clusters update comandos.

Marca de gcloud CLI Descripción Nivel de detalle de los valores Valor mín. Valor máx.
--delete-max-idle1 Se aplica a los comandos de creación y actualización de clústeres. El tiempo que transcurre desde que el clúster entra en estado inactivo después de que se crea o actualiza y está en un estado listo para usar hasta que comienza a borrar. Proporciona la duración en IntegerUnit formato, en el que la unidad puede ser "s, m, h, d" (segundos, minutos, horas, días). Ejemplo: "30m": 30 minutos desde el momento en que el clúster entra en estado inactivo. 1 segundo 5 minutos 14 días
--no-delete-max-idle Se aplica solo al comando de actualización de clústeres. Cancela la eliminación de clústeres según la configuración anterior de la marca delete-max-idle. no aplicable no aplicable no aplicable
--delete-expiration-time2 Se aplica a los comandos de creación y actualización de clústeres. El momento en que se comienza a borrar el clúster en el formato de fecha y hora ISO 8601. Para generar la fecha y hora en el formato correcto, puedes usar el Timestamp Generator. Por ejemplo, "2017-08-22T13:31:48-08:00" indica la hora de vencimiento 13:21:48 en la zona horaria UTC-8:00.1 segundo 10 minutos desde la hora actual 14 días desde la hora actual
--delete-max-age2 Se aplica a los comandos de creación y actualización de clústeres. El tiempo que transcurre desde que se envía la solicitud de creación de clústeres hasta el momento en que este comienza a borrar. Proporciona la duración en IntegerUnit formato, en el que la unidad puede ser "s, m, h, d" (segundos, minutos, horas, días). Ejemplos: "30m": 30 minutos a partir de ahora; "1d": 1 día a partir de ahora. 1 segundo 10 minutos 14 días
--no-delete-max-age Se aplica solo al comando de actualización de clústeres. Cancela la eliminación automática de clústeres según la configuración anterior de la marca delete-max-age o delete-expiration-time. No aplicable No aplicable No aplicable
Notas:
  1. Puedes pasar la delete-max-idle marca con la delete-expiration-time o delete-max-age marca en tu solicitud de creación o actualización de clústeres. La primera que sea cierta tendrá efecto para borrar el clúster.
  2. Puedes pasar la marca delete-expiration-time o la delete-max-age marca al comando de creación o actualización de clústeres, pero no ambas.

Ejemplo de creación de clústeres:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --delete-max-idle=DURATION \
    --delete-expiration-time=TIME \
    ... other flags ...

Ejemplo de actualización de clústeres:

gcloud dataproc clusters update CLUSTER_NAME \
    --region=REGION \
    --delete-max-idle=DURATION \
    --no-delete-max-age \
    ... other flags

API de REST

cluster.patch

Campo de API Descripción Nivel de detalle de los valores Valor mín. Valor máx.
idleDeleteTtl1 Se aplica a los comandos de creación y actualización de clústeres. El tiempo que transcurre desde que el clúster entra en estado inactivo después de que se crea o actualiza y está en un estado listo para usar hasta que comienza a borrar. Cuando actualizas un clúster con un valor nuevo, este debe ser mayor que el valor establecido anteriormente. Muestra la duración en segundos con hasta nueve dígitos fraccionarios, terminados en “s”. Ejemplo: “3.5s”. Envía una duración vacía para cancelar un valor idleDeleteTtl ya establecido. 1 segundo 5 minutos 14 días
autoDeleteTime2 Se aplica a los comandos de creación y actualización de clústeres. El momento de comenzar a borrar el clúster. Cuando actualizas un clúster con una hora nueva, esta debe ser posterior a la hora establecida anteriormente. Cuando se realiza una actualización, si se establece un valor vacío para autoDeleteTime, se cancela la eliminación automática existente.
Muestra una marca de tiempo en RFC 3339 formato UTC "Zulu", con precisión de nanosegundos. Ejemplo: "2014-10-02T15:01:23.045123456Z".
1 segundo 10 minutos desde la hora actual 14 días desde la hora actual
autoDeleteTtl2 El tiempo que transcurre desde que se envía la solicitud de creación o actualización de clústeres hasta que este comienza a borrar. Cuando actualizas un clúster, la nueva hora de eliminación programada (hora de la solicitud de actualización más la nueva duración) debe ser posterior a la hora de eliminación del clúster establecida anteriormente. Envía un valor vacío para cancelar un valor ya establecido autoDeleteTtl. Muestra la duración en segundos con hasta nueve dígitos fraccionarios, terminados en “s”. Ejemplo: “3.5s”. 1 segundo 10 minutos 14 días
Notas:
  1. Puedes establecer o actualizar idleDeleteTtl y autoDeleteTime o autoDeleteTtl en tu solicitud de creación o actualización de clústeres. La primera que sea cierta tendrá efecto para borrar el clúster.
  2. Puedes establecer o actualizar autoDeleteTime o autoDeleteTtl en tu solicitud, pero no ambas.

Console

  1. Abre la página Crea un clúster de Managed Service para Apache Spark.
  2. Selecciona el panel Personalizar clúster.
  3. En la sección Eliminación programada, selecciona las opciones que se aplicarán a tu clúster.

Visualiza la configuración de clústeres de la eliminación programada

gcloud CLI

Puedes usar el comando gcloud dataproc clusters list para confirmar que un clúster tiene habilitada la eliminación programada.

 gcloud dataproc clusters list \
     --region=REGION
Resultado de ejemplo:
...
NAME         WORKER_COUNT ... SCHEDULED_DELETE
CLUSTER_ID   NUMBER       ... enabled
...

Puedes usar el comando gcloud dataproc clusters describe para verificar la configuración de eliminación programada de LifecycleConfig del clúster.

gcloud dataproc clusters describe CLUSTER_NAME \
    --region=REGION
...
lifecycleConfig:
  autoDeleteTime: '2018-11-28T19:33:48.146Z'
  idleDeleteTtl: 1800s
  idleStartTime: '2018-11-28T18:33:48.146Z'
...

autoDeleteTime y idleDeleteTtl son los valores de configuración de eliminación programada establecidos en el clúster. Managed Service para Apache Spark genera el valor idleStartTime, que es la última hora de inicio del clúster inactivo. Managed Service para Apache Spark borra el clúster si este permanece inactivo en idleStartTime + idleDeleteTtl.

API de REST

Puedes realizar una solicitud clusters.list para confirmar que un clúster tiene habilitada la eliminación programada.

Console

  • Para ver la configuración de eliminación programada del clúster, selecciona el nombre del clúster en la página de clústeres de Managed Service para Apache Spark en la Google Cloud consola de.
  • En la página de detalles del clúster, selecciona la Configuración pestaña. Ve a la lista de configuración del clúster para ver la configuración de eliminación programada.