Cuando habilitas el almacenamiento en caché del clúster de Managed Service para Apache Spark, el clúster almacena en caché los datos de Cloud Storage a los que acceden con frecuencia tus trabajos de Spark.
Beneficios
- Rendimiento mejorado: El almacenamiento en caché puede mejorar el rendimiento de los trabajos, ya que reduce la cantidad de tiempo que se dedica a recuperar datos del almacenamiento.
- Costos de almacenamiento reducidos: Dado que los datos activos se almacenan en caché en el disco local, se realizan menos llamadas a la API para recuperar datos del almacenamiento.
- Aplicabilidad de los trabajos de Spark: Cuando el almacenamiento en caché del clúster está habilitado en un clúster, se aplica a todos los trabajos de Spark que se ejecutan en el clúster, ya sea que se envíen al servicio de Managed Service para Apache Spark o que se ejecuten de forma independiente en el clúster.
Limitaciones y requisitos
- El almacenamiento en caché solo se aplica a los trabajos de Managed Service para Apache Spark.
- Solo se almacenan en caché los datos de Cloud Storage.
- El almacenamiento en caché solo se aplica a los clústeres que cumplen con los siguientes requisitos:
- El clúster tiene un nodo principal y
nnodos trabajadores (no se admiten los clústeres de alta disponibilidad (HA) ni de un solo nodo). - Esta función está disponible en las versiones de imágenes
2.0.72+,2.1.20+y2.2.0+de Managed Service para Apache Spark. - Cada nodo del clúster debe tener SSD locales conectadas con la interfaz NVMe (Non-Volatile Memory Express) (los discos persistentes [PD] no son compatibles). Los datos solo se almacenan en caché en SSD locales NVMe.
- El clúster usa la cuenta de servicio de VM predeterminada para la autenticación. No se admiten las cuentas de servicio de VM personalizadas.
- El clúster tiene un nodo principal y
Habilita el almacenamiento en caché del clúster
Puedes habilitar el almacenamiento en caché del clúster cuando creas un clúster de Managed Service para Apache Spark con la consola de Google Cloud , Google Cloud CLI o la API de Dataproc.
Consola deGoogle Cloud
- Abre la página de Managed Service para Apache Spark Crea un clúster en la consola de Google Cloud .
- Se selecciona el panel Configurar clúster. En la sección Mejoras en el rendimiento de Spark, selecciona Habilitar el almacenamiento en caché de Google Cloud Storage.
- Después de confirmar y especificar los detalles del clúster en los paneles de creación, haz clic en Crear.
gcloud CLI
Ejecuta el comando gcloud dataproc clusters create de forma local en una ventana de la terminal o en Cloud Shell con la dataproc:dataproc.cluster.caching.enabled=true
propiedad del clúster.
Ejemplo:
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties dataproc:dataproc.cluster.caching.enabled=true \ --num-master-local-ssds=2 \ --master-local-ssd-interface=NVME \ --num-worker-local-ssds=2 \ --worker-local-ssd-interface=NVME \ other args ...
API de REST
Establece SoftwareConfig.properties para incluir la propiedad del clúster "dataproc:dataproc.cluster.caching.enabled": "true" como parte de una solicitud clusters.create.