Google Cloud Serverless para Apache Spark te permite ejecutar cargas de trabajo de Spark sin que tengas que aprovisionar ni administrar tu propio clúster de Dataproc. Existen dos formas de ejecutar cargas de trabajo de Serverless para Apache Spark: cargas de trabajo por lotes y sesiones interactivas.
Cargas de trabajo por lotes
Envía una carga de trabajo por lotes al servicio de Serverless para Apache Spark con la Google Cloud consola, la CLI de Google Cloud o la API de Dataproc. El servicio ejecuta la carga de trabajo en una infraestructura de procesamiento administrada y ajusta los recursos de forma automática según sea necesario. Los cargos de Serverless para Apache Spark se aplican solo al momento en que se ejecuta la carga de trabajo.
Capacidades de carga de trabajo por lotes
Puedes ejecutar los siguientes tipos de cargas de trabajo por lotes de Serverless para Apache Spark:
- PySpark
- Spark SQL
- Spark R
- Spark (Java o Scala)
Puedes especificar las propiedades de Spark cuando envías una carga de trabajo por lotes de Serverless para Apache Spark.
Programa cargas de trabajo por lotes
Puedes programar una carga de trabajo por lotes de Spark como parte de un Airflow o Cloud Composer con un operador por lotes de Airflow. Para obtener más información, consulta Ejecuta cargas de trabajo de Serverless para Apache Spark con Cloud Composer.
Comenzar
Para comenzar, consulta Ejecuta una carga de trabajo por lotes de Apache Spark.
Sesiones interactivas
Escribe y ejecuta código en notebooks de Jupyter durante una sesión interactiva de Serverless para Apache Spark. Puedes crear una sesión de notebook de las siguientes maneras:
Ejecuta código de PySpark en notebooks de BigQuery Studio. Abre un notebook de Python de BigQuery para crear una sesión interactiva de Serverless para Apache Spark basada en Spark Connect. Cada notebook de BigQuery puede tener solo una sesión activa de Serverless para Apache Spark asociada con él.
Usa el complemento de JupyterLab de Dataproc para crear varias sesiones de notebooks de Jupyter a partir de plantillas que creas y administras. Cuando instalas el complemento en una máquina local o una VM de Compute Engine, aparecen diferentes tarjetas que corresponden a diferentes configuraciones del kernel de Spark en la página de inicio de JupyterLab. Haz clic en una tarjeta para crear una sesión de notebook de Serverless para Apache Spark y, luego, comienza a escribir y probar tu código en el notebook.
El complemento de JupyterLab de Dataproc también te permite usar la página de inicio de JupyterLab para realizar las siguientes acciones:
- Crea clústeres de Dataproc en Compute Engine.
- Envía trabajos a clústeres de Dataproc en Compute Engine.
- Ve los registros de Spark. Google Cloud
Cumplimiento de las normas de seguridad
Serverless para Apache Spark cumple con todos los requisitos de residencia de datos, CMEK, VPC-SC, y otros requisitos de seguridad con los que Dataproc cumple.