En esta página, se incluyen preguntas frecuentes sobre Google Cloud Serverless for Apache Spark con sus respuestas.
¿Cuándo debo usar Serverless for Apache Spark en lugar de Dataproc en Compute Engine?
Serverless para Apache Spark:
- Admite cargas de trabajo por lotes de Spark y sesiones interactivas en notebooks de Jupyter del kernel de PySpark.
- Serverless para Apache Spark crea y administra tu carga de trabajo y la infraestructura de sesiones interactivas.
Dataproc en Compute Engine:
Admite el envío de diferentes tipos de trabajos de Spark y trabajos basados en otros componentes de código abierto, como Flink, Hadoop, Hive, Pig, Presto, y otros.
No crea ni administra la infraestructura. Tú creas y administras tus clústeres de Dataproc.
¿Qué puedo hacer con Serverless for Apache Spark?
Ejecutar trabajos de transmisión con bibliotecas de transmisión de Spark (Nota: La transmisión no es un servicio administrado, por lo que debes administrar los puntos de control y los reinicios)
Entrenar modelos con Spark MLlib
Usar notebooks de SQL interactivos para la exploración de datos, gráficos, series temporales y estadísticas geoespaciales
Organizar cargas de trabajo de Serverless for Apache Spark con Cloud Composer, un servicio administrado de Apache Airflow
¿Cómo debo configurar un plan de ejecución de carga de trabajo?
Puedes ejecutar cargas de trabajo de forma simultánea o secuencial. Tu plan de ejecución afecta tu Google Cloud cuota de recursos. Puedes ejecutar tantas cargas de trabajo en paralelo como lo permitan tus cuotas de recursos por lotes.
¿Puedo usar una imagen personalizada con Serverless for Apache Spark?
- Sí. Puedes usar una imagen de contenedor personalizada en lugar de la imagen de contenedor predeterminada. Consulta Usa contenedores personalizados con Serverless for Apache Spark.
¿Puedo especificar recursos de memoria y disco para las cargas de trabajo de Serverless for Apache Spark?
Sí. Puedes especificar niveles de procesamiento y disco del controlador y del ejecutor premium, y la cantidad de recursos de procesamiento y disco del controlador y del ejecutor que se asignarán cuando envíes una carga de trabajo (consulta Propiedades de asignación de recursos).
¿Cómo puedo especificar el rango de direcciones IP para mi red de VPC de Serverless for Apache Spark?
Las cargas de trabajo de Serverless for Apache Spark se ejecutan en tu entorno.
Cada controlador y ejecutor de Spark en una carga de trabajo de Spark sin servidores consume una
dirección IP interna en tu red de VPC de Serverless for Apache Spark.
/16 es un rango de direcciones
CIDR típico especificado por el usuario
para una red de VPC de Serverless for Apache Spark.
Puedes limitar el rango de direcciones IP de tu red en función de la cantidad de cargas de trabajo simultáneas
que planeas ejecutar.
¿Serverless for Apache Spark admite la residencia de datos?
Sí. Especificas la región en la que se procesa tu carga de trabajo. Ubica tus conjuntos de datos de entrada y salida en la región especificada.
¿Cómo selecciona Serverless for Apache Spark una zona dentro de la región especificada para ejecutar la carga de trabajo?
Serverless for Apache Spark selecciona la zona de Compute Engine en la que ejecuta una carga de trabajo en función de la capacidad y la disponibilidad. Si una zona deja de estar disponible después de que se inicia una carga de trabajo, esta falla y debes volver a enviar la carga de trabajo fallida.
¿Cómo usan los recursos de procesamiento las cargas de trabajo de Serverless for Apache Spark?
Cada carga de trabajo se ejecuta en sus propios recursos de procesamiento. Los envíos de lotes múltiples no comparten ni reutilizan recursos de procesamiento.
Prácticas recomendadas:
Optimiza tu carga de trabajo para trabajos de ejecución media, no para trabajos de ejecución corta.
Conserva los datos a los que acceden varias cargas de trabajo en Cloud Storage.
¿Dónde puedo encontrar información sobre anuncios, funciones, correcciones de errores, problemas conocidos y obsolescencias de Serverless for Apache Spark?
Consulta las notas de la versión de Serverless for Apache Spark.
¿Las cargas de trabajo simultáneas compiten por los recursos?
Las cargas de trabajo de Serverless for Apache Spark solo compiten por los recursos si tu cuota de recursos no es suficiente para ejecutar todas las cargas de trabajo que se ejecutan de forma simultánea. De lo contrario, las cargas de trabajo están completamente aisladas entre sí.
¿Cómo se asigna la cuota de Serverless for Apache Spark?
Los lotes de Serverless for Apache Spark consumen Google Cloud recursos. Consulta Cuotas de Dataproc Serverless para obtener más información.
¿Necesito configurar un servidor de historial persistente de Dataproc?
La configuración de un servidor de historial persistente (PHS) para usar con Serverless for Apache Spark es opcional.Puedes usar el PHS para ver eventos de Spark y otros registros en un bucket de Cloud Storage especificado hasta y después del período de retención (TTL) de 90 días del bucket de preparación y temporal estándar de Serverless for Apache Spark.
¿Qué registros de Spark de Serverless for Apache Spark están disponibles?
Los registros del controlador y del ejecutor de Spark están disponibles en Cloud Logging durante y después de la ejecución de la carga de trabajo de Spark. Además, las aplicaciones de Spark son visibles en la interfaz web del servidor de historial persistente (PHS) mientras se ejecuta la carga de trabajo (selecciona PHS > Incomplete Applications en la IU del PHS).
Si configuras un PHS de Dataproc, este proporciona acceso persistente a los registros de eventos de Spark guardados en Cloud Storage, que proporcionan información sobre la ejecución de la app de Spark, como eventos de DAG y de ejecutor.
¿Puedo configurar la cantidad de ejecutores para mi carga de trabajo de Spark?
Sí. Puedes configurar la cantidad de ejecutores para una carga de trabajo de Spark con la
spark.executor.instances
propiedad. Sin embargo, la cantidad total de núcleos que puede usar una carga de trabajo es más importante
que la cantidad de ejecutores porque Spark ejecuta 1 tarea por núcleo. Por ejemplo,
si una carga de trabajo tiene cuatro ejecutores con dos núcleos cada uno, ejecutará 4 * 2 = 8 tareas
al mismo tiempo. También ejecutará la misma cantidad de tareas para una carga de trabajo que
tenga dos ejecutores con cuatro núcleos cada uno. Dado que la cantidad de núcleos para cada carga de trabajo es la
misma, ejecutarán la misma cantidad de tareas. Puedes usar la
spark.executor.cores
propiedad para configurar la cantidad de núcleos por ejecutor para tu carga de trabajo de Serverless for Apache Spark.
¿Qué métricas de Spark usa Serverless for Apache Spark para el ajuste de escala automático?
Serverless for Apache Spark looks at the maximum-needed and running
Spark's dynamic allocation metrics to determine whether to scale up or down.
Consulta Ajuste de escala automático de Serverless for Apache Spark.
¿Puedo configurar el comportamiento de ajuste de escala automático de Serverless for Apache Spark con propiedades de Spark?
Sí. El ajuste de escala automático de Serverless for Apache Spark se basa en la asignación dinámica de Spark y está habilitado de forma predeterminada. Puedes ajustar las siguientes propiedades de Spark y propiedades de asignación dinámica de Spark:
spark.executor.instancesspark.dynamicAllocation.initialExecutorsspark.dynamicAllocation.minExecutorsspark.dynamicAllocation.maxExecutors
¿Por qué necesito empaquetar mi código en un archivo JAR para enviar mi carga de trabajo de Spark?
Spark está escrito en Scala, lo que significa que los procesos del controlador y del trabajador operan como procesos de JVM. En los lenguajes de JVM, el archivo JAR es la forma principal de empaquetar código. Pasas el archivo JAR a Serverless for Apache Spark cuando envías una carga de trabajo.