"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Usar Dataproc Hub

Objetivos

Usa Dataproc Hub para crear un entorno de notebook de JupyterLab de un solo usuario que se ejecute en un clúster de Managed Service para Apache Spark.
Crea un notebook y ejecuta un trabajo de Spark en el clúster de Managed Service para Apache Spark.
Borrar tu clúster y conserva tu notebook en Cloud Storage.

Antes de comenzar

El administrador debe otorgarte el permiso notebooks.instances.use (consulta Configura funciones de Identity and Access Management (IAM)).

Crea un clúster de JupyterLab de Dataproc desde Dataproc Hub

Selecciona la pestaña Notebooks administrados por el usuario en la página Dataproc→Workbench de la Google Cloud consola.
Haz clic en Abrir JupyterLab en la fila que muestra la instancia de Dataproc Hub creada por el administrador.
1. Si no tienes acceso a la Google Cloud consola, ingresa la URL de la instancia de Dataproc Hub que un administrador compartió contigo en tu navegador web.
En la página Jupyterhub→Opciones de Dataproc, selecciona una configuración y una zona del clúster. Si está habilitado, especifica las personalizaciones y, luego, haz clic en Crear.

Después de crear el clúster de Managed Service para Apache Spark, se te redireccionará a la interfaz de JupyterLab que se ejecuta en el clúster.

Crea un notebook y ejecuta un trabajo de Spark

En el panel izquierdo de la interfaz de JupyterLab, haz clic en GCS (Cloud Storage).
Crea un notebook de PySpark desde el selector de JupyterLab.

El kernel de PySpark inicializa un SparkContext (mediante la variable sc). Puedes examinar SparkContext y ejecutar un trabajo de Spark desde el notebook.

rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
       .map(lambda word: (word, 1))
       .reduceByKey(lambda a, b: a + b))
print(rdd.collect())

Asigna un nombre y guarda el notebook. El notebook se guarda y permanece en Cloud Storage después de que se borra el clúster de Managed Service para Apache Spark.

Cierra el clúster de Dataproc

En la interfaz de JupyterLab, selecciona Archivo→Panel de control de Hub para abrir la página Jupyterhub.

Cuando uses la versión 1.4 o una anterior de la imagen de Managed Service para Apache Spark, navega a /hub/home para acceder a la página Jupyterhub.
Haz clic en Detener mi clúster para cerrar (borrar) el servidor de JupyterLab, que borra el clúster de Managed Service para Apache Spark.

Detener el servidor y borrar el clúster no borra la instancia de Dataproc Hub. Puedes hacer clic en Iniciar mi servidor en la página Jupyterhub (Panel de control de Hub) o seleccionar el vínculo Abrir JupyterLab para tu instancia de Dataproc Hub en la página Dataproc→Workbench→Notebooks administrados por el usuario de la Google Cloud consola para abrir, configurar y crear otro clúster de JupyterLab de Managed Service para Apache Spark.

¿Qué sigue?

Explora Spark y los notebooks de Jupyter en Dataproc en GitHub.