Además de usar VM estándar de Compute Engine como trabajadores de Dataproc (llamados “primarios”), los clústeres de Dataproc pueden usar
secondary trabajadores.
Las siguientes características se aplican a todos los trabajadores secundarios en un clúster de Dataproc:
Solo procesamiento: Los trabajadores secundarios no almacenan datos. Solo funcionan como nodos de procesamiento. Por lo tanto, puedes usar trabajadores secundarios para escalar el procesamiento sin escalar el almacenamiento.
No hay clústeres secundarios solo de trabajador: Tu clúster debe tener trabajadores primarios Si creas un clúster y no especificas la cantidad de trabajadores primarios, Dataproc agrega dos trabajadores primarios al clúster.
Tipo de máquina: De forma predeterminada, los trabajadores secundarios utilizan el tipo de máquina de los trabajadores primarios del clúster. Por ejemplo, si creas un clúster con trabajadores primarios que usan
n1-standard-4tipos de máquina, de forma predeterminada, todos los trabajadores secundarios agregados al clúster también usarán máquinasn1-standard-4.En lugar de usar el tipo de máquina de trabajador primario predeterminado para los trabajadores secundarios, puedes especificar una o más listas clasificadas de tipos de máquina para los trabajadores secundarios. Consulta VMs flexibles de Dataproc para obtener más información.
Tamaño de disco persistente: De forma predeterminada, los trabajadores secundarios se crean con el tamaño del disco de arranque del trabajador principal o con un tamaño de menos de 1000 GB. Este espacio de disco se usa para el almacenamiento en caché local de datos y no está disponible a través de HDFS. Puedes anular el tamaño de disco predeterminado con el
gcloud dataproc clusters create --secondary-worker-boot-disk-sizecomando durante la creación del clúster. Puedes especificar esta marca incluso si el clúster no tendrá trabajadores secundarios cuando se crea.Creación asíncrona: Cuando agregas trabajadores secundarios mediante la creación o el escalamiento vertical de un clúster, es posible que los trabajadores secundarios no se aprovisionen en el momento en que finaliza la operación de creación o actualización. Esto se debe a que Dataproc administra los trabajadores secundarios mediante grupos de instancias administrados (MIG), que crean VM de forma asíncrona en cuanto se pueden aprovisionar (consulta Verifica el estado de las instancias administradas).
Trabajadores secundarios interrumpibles y no interrumpibles
Existen tres tipos de trabajadores secundarios: VMs Spot, VMs interrumpibles estándar, y VMs no interrumpibles. El tipo de trabajador secundario predeterminado de Dataproc es la VM interrumpible estándar. Puedes especificar una combinación de trabajadores secundarios Spot y no interrumpibles.
Ejemplo: Si seleccionas tres trabajadores secundarios cuando creas un clúster, puedes especificar tres VMs Spot, tres VMs interrumpibles, tres VMs no interrumpibles o una combinación de trabajadores Spot y no interrumpibles.
Trabajadores interrumpibles
Aunque la posible eliminación de los trabajadores interrumpibles puede afectar la estabilidad del trabajo, puedes decidir usar instancias interrumpibles para reducir los costos de procesamiento por hora para el procesamiento de datos no críticos o crear clústeres muy grandes a un menor costo total (puedes usar la calculadora de precios de Google Cloud para estimar los costos).
Para obtener mejores resultados, la cantidad de trabajadores interrumpibles en tu clúster debe ser inferior al 50% de la cantidad total de todos los trabajadores (primario y todos los trabajadores secundarios) en tu clúster.
Al usar trabajadores interrumpibles, es muy probable que tus trabajos experimenten una mayor cantidad de fallas transitorias de tareas de un solo trabajador en comparación con los trabajos que se ejecutan en trabajadores no interrumpibles. Para aumentar la tolerancia del trabajo a errores de tareas de nivel bajo, puedes configurar valores de propiedad similares a los valores de propiedad predeterminados con clústeres con ajuste de escala automático para aumentar la cantidad máxima de reintentos de tareas y evitar fallas en los trabajos.
Consideración de ahorro de costos: El uso de VMs interrumpibles no siempre ahorra costos, ya que las interrupciones pueden causar una ejecución más prolongada del trabajo, lo que genera costos más altos. Aunque el uso del modo de flexibilidad mejorada (EFM) con VMs interrumpibles puede ayudar a mitigar este resultado, el ahorro general de costos de las VMs interrumpibles variará con cada caso de uso. En general, los trabajos de corta duración son más adecuados para el uso de VMs interrumpibles, ya que la probabilidad de interrupciones durante la ejecución del trabajo será menor. Prueba diferentes opciones de trabajo, como VMs no interrumpibles y VMs interrumpibles con EFM, para estimar los costos y llegar a la mejor solución.
Trabajadores no interrumpibles
- Puedes crear un clúster con trabajadores secundarios no interrumpibles para escalar
el procesamiento sin sacrificar la estabilidad del trabajo. Para ello, especifica
non-preemptiblecomo el tipo de trabajador secundario. Puedes combinar trabajadores secundarios no interrumpibles con trabajadores secundarios Spot.
Selecciona trabajadores secundarios
Puedes especificar la cantidad y el tipo de trabajadores secundarios cuando creas un clúster con la Google Cloud consola, CLI de gcloud o la API de Dataproc.
- Puedes combinar trabajadores secundarios Spot con trabajadores secundarios no interrumpibles.
- Puedes actualizar tu clúster después de crearlo para cambiar el número de trabajadores secundarios en tu clúster, pero no el tipo.
- Las actualizaciones de etiquetas se propagan a todos los trabajadores secundarios interrumpibles en un plazo de 24 horas. Las actualizaciones de etiquetas no se propagan a los trabajadores secundarios no interrumpibles existentes. Las actualizaciones de etiquetas se propagan a todos los trabajadores que se agregan a un clúster después de actualizar las etiquetas. Por ejemplo, si escalas verticalmente el clúster, todos los trabajadores principales y secundarios nuevos tendrán las etiquetas nuevas.
Console
Puedes especificar la cantidad de trabajadores secundarios cuando creas un clúster de Dataproc desde la Google Cloud consola. Después de crear un clúster, puedes editar su configuración desde la Google Cloud consola para agregar o quitar trabajadores secundarios.
Crea un clúster con trabajadores secundarios
Puedes configurar la cantidad y el tipo de trabajadores secundarios para que se apliquen a un clúster nuevo desde la sección de nodos trabajadores del panel Configurar nodos de Dataproc en la página Crear un clúster de la Google Cloud consola. Especifica la cantidad y el tipo de trabajadores secundarios en los campos Nodos trabajadores secundarios y Interrumpibilidad, respectivamente.
Actualiza un clúster con instancias secundarias
Para actualizar la cantidad de trabajadores secundarios en un clúster, haz clic en el nombre del clúster en la página de la Google Cloud consola. En la página Detalles del clúster. Haz clic en la pestaña **CONFIGURACIÓN** , luego haz clic en EDITAR y actualiza el número en el campo de nodos trabajadores secundarios.
Quita todas las instancias interrumpibles de un clúster
Para quitar todos los trabajadores secundarios de un clúster, actualiza la configuración del clúster
como se explicó anteriormente, mediante la especificación de 0 en el
campo de nodos trabajadores secundarios.
Comando de la CLI de Google Cloud
Usa el
gcloud dataproc clusters create
comando para agregar trabajadores secundarios a un clúster en el momento de su creación.
Después de crear un clúster, puedes agregar trabajadores secundarios al
clúster o quitarlos con el
gcloud dataproc clusters update
comando (la cantidad, pero no el tipo de trabajadores secundarios que se puede actualizar).
Crea un clúster con trabajadores secundarios
Para crear un clúster con trabajadores secundarios, usa el
gcloud dataproc clusters create
comando con el --num-secondary-workers argumento. Los trabajadores secundarios
son VMs interrumpibles estándar de forma predeterminada. Puedes especificar trabajadores secundarios no interrumpibles o
Spot cuando creas un clúster
si configuras la marca --secondary-worker-type como `non-preemptible`
o `spot`. En los siguientes ejemplos, se muestra cómo crear un clúster con cada
tipo de trabajador secundario: `preemptible` (predeterminado), Spot (interrumpible)
y no interrumpible. Puedes usar marcas adicionales para
combinar trabajadores secundarios Spot con trabajadores secundarios no interrumpibles.
Con el siguiente comando, puedes crear un clúster llamado “cluster1” con dos trabajadores secundarios interrumpibles estándar (tipo predeterminado).
gcloud dataproc clusters create cluster1 \ --num-secondary-workers=2 \ --region=us-central1
El siguiente comando usa la marca secondary-worker-type
para crear un clúster llamado “cluster2” con dos trabajadores secundarios Spot (interrumpibles).
gcloud dataproc clusters create cluster2 \ --num-secondary-workers=2 \ --secondary-worker-type=spot \ --region=us-central1
Ejemplo 3
El siguiente comando usa la secondary-worker-type
marca para crear un clúster llamado "cluster3" con dos
trabajadores secundarios no interrumpibles.
gcloud dataproc clusters create cluster3 \ --num-secondary-workers=2 \ --secondary-worker-type=non-preemptible \ --region=us-central1
gcloud dataproc clusters create --secondary-worker-boot-disk-size
comando durante la creación del clúster. Esta marca se puede especificar incluso si el clúster no
tiene trabajadores secundarios en el momento de la creación.
Permite que la Google Cloud consola elabore tu solicitud de creación de clústeres.
Puedes hacer clic en los vínculos de REST equivalente o línea de comandos en la
parte inferior del panel izquierdo de la página
Crea un clúster de Dataproc para que
la Google Cloud consola cree una solicitud equivalente a la API de REST o un comando de la herramienta de gcloud.
Actualiza un clúster con trabajadores secundarios
Para actualizar un clúster y agregar o quitar trabajadores secundarios, usa el
gcloud dataproc clusters update
comando con la --num-secondary-workers marca.
El siguiente comando actualiza example-cluster para que use cuatro trabajadores secundarios (del tipo predeterminado o del tipo especificado cuando creaste el clúster).
gcloud dataproc clusters update example-cluster \ --num-secondary-workers=4 \ --region=us-central1
Quita todos los trabajadores secundarios de un clúster
Para quitar todos los trabajadores secundarios de un clúster, usa el
gcloud dataproc clusters update
comando con --num-secondary-workers configurado como 0.
El siguiente comando quita todos los trabajadores secundarios de “example-cluster”.
gcloud dataproc clusters update example-cluster \ --num-secondary-workers=0 \ --region=us-central1
API de REST
Crea un clúster con trabajadores secundarios
Usa la API de Dataproc
clusters.create
y agrega trabajadores secundarios a un clúster cuando este se crea. En los siguientes
ejemplos, se muestra cómo crear un clúster con cada
tipo de trabajador secundario:
preemptible (predeterminado), spot (interrumpible)
y non-preemptible. Puedes usar campos adicionales para
combinar trabajadores secundarios Spot con trabajadores secundarios no interrumpibles.
La siguiente solicitud POST crea un clúster llamado "cluster1" con dos trabajadores de VM interrumpibles estándar (tipo predeterminado).
POST https://dataproc.googleapis.com/v1/projects/project-id/regions/region/clusters
{
"clusterName": "cluster1",
"config": {
"secondaryWorkerConfig": {
"numInstances": 2
}
}
}
La siguiente solicitud POST crea un clúster llamado "cluster2" con dos trabajadores de VM Spot (interrumpibles).
POST https://dataproc.googleapis.com/v1/projects/project-id/regions/region/clusters
{
"clusterName": "cluster2",
"config": {
"secondaryWorkerConfig": {
"numInstances": 2,
"preemptibility": "SPOT"
}
}
}
Ejemplo 3
La siguiente solicitud POST crea un clúster llamado “cluster3” con dos no interrumpibles trabajadores secundarios.
POST https://dataproc.googleapis.com/v1/projects/project-id/regions/region/clusters
{
"clusterName": "cluster3",
"config": {
"secondaryWorkerConfig": {
"numInstances": 2,
"preemptibility": "NON_PREEMPTIBLE"
}
}
}
Actualiza un clúster con trabajadores secundarios
EjemploLa siguiente solicitud PATCH actualiza un clúster para que tenga cuatro trabajadores secundarios (del tipo predeterminado o del tipo especificado cuando creaste el clúster).
PATCH /v1/projects/project-id/regions/region/clusters/cluster-name?updateMask=config.secondary_worker_config.num_instances
{
"config": {
"secondaryWorkerConfig": {
"numInstances": 4
}
}
}
Soluciona problemas de trabajadores secundarios
Problemas de permisos de la cuenta de servicio: Los trabajadores secundarios se crean a través de un grupo de instancias administrado. Si hay un problema de permisos, los registros de Dataproc no informarán la falla para crear trabajadores secundarios, pero los trabajadores con errores se enumerarán en la pestaña Instancias de VM de la página Detalles del clúster en la Google Cloud consola sin una marca de verificación verde. Para ver la lista, abre la página Clústeres de Dataproc y, luego, haz clic en el nombre del clúster para abrir la página Detalles del clúster del clúster.
Problemas de permisos de grupos de instancias administrados: Para verificar si hay un problema con los permisos de grupos de instancias administrados:
- Busca el nombre del grupo de instancias administrado (
instanceGroupManagerName).Console
- Abre la página Clústeres de Dataproc y, luego, haz clic en el nombre del clúster para abrir la página Detalles del clúster del clúster.
- Haz clic en REST equivalente en la parte inferior de la página y, luego, consulta el
config.secondaryWorkerConfig.managedGroupConfig.instanceGroupManagerNamevalor.
Google Cloud CLI
Ejecuta elgcloud dataproc clusters describecomando con la marca--formatpara mostrar elinstanceGroupManagerName.gcloud dataproc clusters describe CLUSTER_NAME \ --region=REGION \ --format='value(config.secondaryWorkerConfig.managedGroupConfig.instanceGroupManagerName)'
API de REST
Envía una solicitudclusters.getpara mostrar el valor deconfig.secondaryWorkerConfig.managedGroupConfig.instanceGroupManagerName. - Visualiza los registros en el Explorador de registros.
Selecciona el tipo de recurso
Google Compute Engine Instance Groupy filtra por el nombre del grupo de instancias administrado.Como alternativa, puedes aplicar un filtro de registro para `resource.type="gce_instance_group" y
resource.labels.instance_group_name=INSTANCE_GROUP_MANAGER_NAME.
- Busca el nombre del grupo de instancias administrado (
Combina trabajadores secundarios Spot con trabajadores secundarios no interrumpibles
Puedes especificar una combinación de trabajadores secundarios Spot y no interrumpibles cuando creas un clúster de Dataproc.
Configuración de trabajadores secundarios para combinar trabajadores secundarios Spot con trabajadores secundarios no interrumpibles
Usa la siguiente configuración de trabajadores secundarios cuando crees un clúster de Dataproc para obtener un nivel mínimo de capacidad de trabajador secundario con la capacidad de aumentar la capacidad cuando las VMs Spot estén disponibles:
Cantidad de trabajadores secundarios: Es la cantidad total de trabajadores secundarios que se aprovisionarán.
Tipo de trabajador secundario:
spotes el tipo de trabajador secundario cuando se combinan trabajadores secundarios Spot con trabajadores secundarios no interrumpibles.standardCapacityBase: Es la cantidad de trabajadores secundarios no interrumpibles (estándar) que se aprovisionarán. Los trabajadores secundarios no interrumpibles se aprovisionan antes que otros tipos de trabajadores secundarios.
standardCapacityPercentAboveBase: Una vez que se completa la
standardCapacityBasecantidad de trabajadores secundarios, la cantidad restante de trabajadores secundarios necesarios para satisfacer la cantidad total de trabajadores secundarios solicitados se completa con una combinación de VMs no interrumpibles y Spot de la siguiente manera:standardCapacityPercentAboveBase: Es el porcentaje de los trabajadores secundarios restantes que se completarán con VMs no interrumpibles.- La cantidad restante necesaria para satisfacer la cantidad total de trabajadores secundarios solicitados se completa con VMs Spot.
Ejemplo:
- Cantidad de trabajadores secundarios: 15
standardCapacityBase: 5standardCapacityPercentAboveBase30%
Resultado:
- No interrumpible: 8 = 5 (
standardCapacityBase) + 3 (30% de los 10 restantes) - Spot: 7 (70% de los 10 restantes)
- Total = 15
Crea un clúster con una combinación de trabajadores secundarios Spot y no interrumpibles
Puedes usar la CLI de gcloud o la API de Dataproc para combinar trabajadores secundarios Spot con trabajadores secundarios no interrumpibles cuando creas un clúster.
gcloud
Ejecuta el siguiente comando de forma local o en Cloud Shell para crear un clúster con una combinación de trabajadores secundarios Spot y no interrumpibles.
gcloud dataproc clusters create CLUSTER_NAME \ --project=PROJECT_ID \ --region=REGION \ --secondary-worker-type=spot \ --num-secondary-workers=NUMBER_SECONDARY_WORKERS \ --secondary-worker-standard-capacity-base=STANDARD_CAPACITY_BASE \ --secondary-worker-standard-capacity-percent-above-base=STANDARD_CAPACITY_PERCENT_ABOVE_BASE \ OTHER_FLAGS_AS_NEEDED
Notas:
- CLUSTER_NAME: Es el nombre del clúster nuevo.
- PROJECT_ID: Es el ID del Google Cloud proyecto de. Los IDs del proyecto se enumeran en la sección Información del proyecto en el Google Cloud panel de la consola.
- REGION: Es una región de Compute Engine disponible para ejecutar la carga de trabajo.
--secondary-worker-type: Cuando combines trabajadores secundarios Spot y no interrumpibles, especifica el tipo de trabajador secundario comospot.- STANDARD_CAPACITY_BASE y STANDARD_CAPACITY_PERCENT_ABOVE_BASE: Consulta Configuración de trabajadores secundarios para combinar trabajadores secundarios Spot con trabajadores secundarios no interrumpibles.
- OTHER_FLAGS_AS_NEEDED: Consulta gcloud dataproc clusters create.
API
Para combinar trabajadores secundarios Spot con trabajadores secundarios no interrumpibles, configura los campos de la API de Dataproc preemptibility, standardCapacityBase, y
standardCapacityPercentAboveBase como parte de
una solicitud de cluster.create, como se muestra en el siguiente ejemplo de JSON:
{
"clusterName": "CLUSTER_NAME",
"config": {
"secondaryWorkerConfig": {
"numInstances": 15,
"preemptibility": "spot",
"instanceFlexibilityPolicy": {
"provisioningModelMix": {
"standardCapacityBase": STANDARD_CAPACITY_BASE
"standardCapacityPercentAboveBase": STANDARD_CAPACITY_PERCENT_ABOVE_BASE
}
}
}
}
}
Notas:
- CLUSTER_NAME: Es el nombre del clúster nuevo.
preemptibility: Cuando combines trabajadores secundarios Spot y no interrumpibles, especificaspot.- STANDARD_CAPACITY_BASE y STANDARD_CAPACITY_PERCENT_ABOVE_BASE: Consulta Configuración de trabajadores secundarios para combinar trabajadores secundarios Spot con trabajadores secundarios no interrumpibles.
Combina la combinación de trabajadores secundarios con VMs flexibles
Puedes combinar trabajadores secundarios Spot y no interrumpibles y especificar formas de VM flexibles para los trabajadores secundarios cuando creas un clúster.
Ejemplo de la CLI de gcloud:
gcloud dataproc clusters create cluster-name \ --project=project-id \ --region=us-central1 \ --secondary-worker-type=spot \ --num-secondary-workers=15 \ --secondary-worker-standard-capacity-base=5 \ --secondary-worker-standard-capacity-percent-above-base=30 \ --secondary-worker-machine-types="type=n2-standard-8,rank=0" \ --secondary-worker-machine-types="type=e2-standard-8,type=t2d-standard-8,rank=1" ...other flags as needed
Características de la combinación de trabajadores secundarios
En esta sección, se describen algunos de los comportamientos y las características asociados con la combinación de trabajadores secundarios Spot y no interrumpibles.
Preferencia de trabajador secundario
Dataproc no da preferencia a las VMs Spot ni a las no interrumpibles cuando programa aplicaciones en trabajadores secundarios.
Escalamiento de trabajadores secundarios
Cuando los trabajadores secundarios se escalan mediante el ajuste de escala automático o el escalamiento manual, Dataproc mantiene la proporción solicitada de Spot a no interrumpible cuando agrega trabajadores secundarios.
Actualiza la configuración de combinación de trabajadores secundarios
Especifica la combinación de trabajadores secundarios Spot y no interrumpibles cuando creas un clúster de Dataproc. No puedes cambiar la configuración de combinación de trabajadores secundarios después de crear el clúster.
Interrupción de trabajadores secundarios Spot
- Dataproc no controla el momento de la interrupción de la VM Spot (consulta Interrupción de las VMs Spot).
- Cuando se produce la interrupción de Spot, el grupo de trabajadores secundarios puede ejecutarse con capacidad reducida de forma temporal hasta que Compute Engine vuelva a aprovisionar las VMs interrumpidas.
- Dataproc no agregará capacidad a un grupo de trabajadores secundarios que supere la configuración inicial del grupo.