"Servicio administrado para Apache Spark" es el nuevo nombre del producto que antes se conocía como "Dataproc en Compute Engine" (implementación de clústeres) y "Google Cloud Serverless for Apache Spark" (implementación sin servidores).

Descripción general de la implementación sin servidores de Managed Service for Apache Spark

La implementación sin servidores de Managed Service para Apache Spark te permite ejecutar cargas de trabajo de Spark sin necesidad de aprovisionar ni administrar tu propio clúster de Managed Service para Apache Spark. Existen dos formas de ejecutar cargas de trabajo de Managed Service para Apache Spark: cargas de trabajo por lotes y sesiones interactivas.

Cargas de trabajo por lotes

Envía una carga de trabajo por lotes con la Google Cloud consola, Google Cloud CLI o la API de REST. Managed Service para Apache Spark ejecuta la carga de trabajo en una infraestructura de procesamiento administrada y ajusta los recursos de forma automática según sea necesario. Los cargos se aplican solo al momento en que se ejecuta la carga de trabajo.

Capacidades de carga de trabajo por lotes

Puedes ejecutar los siguientes tipos de cargas de trabajo por lotes:

PySpark
Spark SQL
Spark R
Spark (Java o Scala)

Puedes especificar propiedades de Spark cuando envías una carga de trabajo por lotes.

Programa cargas de trabajo por lotes

Puedes programar una carga de trabajo por lotes de Spark como parte de un Airflow o Managed Service para Apache Airflow con un operador por lotes de Airflow. Para obtener más información, consulta Ejecuta cargas de trabajo de Managed Service para Apache Spark con Managed Airflow.

Comenzar

Para comenzar, consulta Ejecuta una carga de trabajo por lotes de Apache Spark.

Sesiones interactivas

Escribe y ejecuta código en notebooks de Jupyter durante una sesión interactiva. Puedes crear una sesión de notebook de las siguientes maneras:

Ejecuta código de PySpark en notebooks de BigQuery Studio. Abre un notebook de Python de BigQuery para crear una sesión interactiva de Managed Service para Apache Spark basada en Spark Connect. Cada notebook de BigQuery puede tener solo una sesión activa de Managed Service para Apache Spark asociada.
Usa el complemento de JupyterLab para crear varias sesiones de notebooks de Jupyter a partir de plantillas que creas y administras. Cuando instalas el complemento en una máquina local o una VM de Compute Engine, aparecen diferentes tarjetas que corresponden a diferentes configuraciones del kernel de Spark en la página de inicio de JupyterLab. Haz clic en una tarjeta para crear una sesión de notebook de Managed Service para Apache Spark y, luego, comienza a escribir y probar tu código en el notebook.

El complemento de JupyterLab también te permite usar la página de inicio de JupyterLab para realizar las siguientes acciones:
- Crear clústeres de Managed Service para Apache Spark
- Enviar trabajos a clústeres
- Ver registros de Spark Google Cloud

Cumplimiento de las normas de seguridad

Managed Service para Apache Spark cumple con todos los requisitos de residencia de datos, CMEK, VPC-SC, y otros requisitos de seguridad con los que Managed Service para Apache Spark es compatible.

Descripción general de la implementación sin servidores de Managed Service for Apache Spark Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.