Almacenamiento en caché del clúster

Cuando habilitas el almacenamiento en caché del clúster de Dataproc, el clúster almacena en caché los datos de Cloud Storage a los que acceden con frecuencia tus trabajos de Spark.

Beneficios

  • Rendimiento mejorado: El almacenamiento en caché puede mejorar el rendimiento de los trabajos, ya que reduce la cantidad de tiempo que se dedica a recuperar datos del almacenamiento.
  • Reducción de los costos de almacenamiento: Debido a que los datos activos se almacenan en caché en el disco local, se realizan menos llamadas a la API al almacenamiento para recuperar datos.
  • Aplicabilidad de los trabajos de Spark: Cuando se habilita el almacenamiento en caché del clúster en un clúster, se aplica a todos los trabajos de Spark que se ejecutan en el clúster, ya sea que se envíen al servicio de Dataproc o se ejecuten de forma independiente en el clúster.

Limitaciones y requisitos

  • El almacenamiento en caché solo se aplica a los trabajos de Spark de Dataproc.
  • Solo se almacenan en caché los datos de Cloud Storage.
  • El almacenamiento en caché solo se aplica a los clústeres que cumplen con los siguientes requisitos:

Habilita el almacenamiento en caché del clúster

Puedes habilitar el almacenamiento en caché del clúster cuando creas un clúster de Dataproc con la Google Cloud consola, la CLI de Google Cloud o la API de Dataproc.

Google Cloud Consola de

  • Abre la página de Dataproc Crea un clúster en Compute Engine en la Google Cloud consola.
  • Se selecciona el panel Configura clústeres. En la sección Mejoras de rendimiento de Spark, selecciona Habilitar el almacenamiento en caché de Google Cloud Storage.
  • Después de confirmar y especificar los detalles del clúster en los paneles de creación de clústeres, haz clic en Crear.

gcloud CLI

Ejecuta el comando gcloud dataproc clusters create de forma local en una ventana de la terminal o en Cloud Shell con la propiedad de clúster.dataproc:dataproc.cluster.caching.enabled=true

Ejemplo:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...
  

API de REST

Configura SoftwareConfig.properties para incluir la "dataproc:dataproc.cluster.caching.enabled": "true" propiedad de clúster como parte de una clusters.create.