Ejecuta una instancia de notebooks administrados en un clúster de Managed Service para Apache Spark

En esta página, se muestra cómo ejecutar el archivo de notebook de una instancia de notebooks administrados en un clúster de Managed Service for Apache Spark.

Antes de comenzar

Accede a tu cuenta de Google Cloud . Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Notebooks and Managed Service for Apache Spark APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Notebooks and Managed Service for Apache Spark APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Roles obligatorios

Para garantizar que la cuenta de servicio tenga los permisos necesarios para ejecutar un archivo de notebook en un clúster de Managed Service for Apache Spark, pídele a tu administrador que otorgue los siguientes roles de IAM a la cuenta de servicio:

Trabajador de Dataproc (roles/dataproc.worker) en tu proyecto
Editor de Dataproc (roles/dataproc.editor) en el clúster para el permiso dataproc.clusters.use

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

Estos roles predefinidos contienen los permisos necesarios para ejecutar un archivo de notebook en un clúster de Managed Service for Apache Spark. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos:

Permisos necesarios

Se requieren los siguientes permisos para ejecutar un archivo de notebook en un clúster de Managed Service for Apache Spark:

dataproc.agents.create
dataproc.agents.delete
dataproc.agents.get
dataproc.agents.update
dataproc.tasks.lease
dataproc.tasks.listInvalidatedLeases
dataproc.tasks.reportStatus
dataproc.clusters.use

Es posible que tu administrador también pueda otorgar estos permisos a la cuenta de servicio con roles personalizados o con otros roles predefinidos.

Crea un clúster de Managed Service para Apache Spark

Para ejecutar un archivo de notebook de una instancia de notebooks administrados en un clúster de Managed Service para Apache Spark, tu clúster debe cumplir con los siguientes criterios:

La puerta de enlace del componente del clúster debe estar habilitada.
El clúster debe tener el componente de Jupyter.
El clúster debe estar en la misma región que la instancia de notebooks administrados.

Para crear tu clúster de Managed Service para Apache Spark, ingresa el siguiente comando en Cloud Shell o en otro entorno en el que esté instalada Google Cloud CLI.

gcloud dataproc clusters create CLUSTER_NAME\
    --region=REGION \
    --enable-component-gateway \
    --optional-components=JUPYTER

Reemplaza lo siguiente:

REGION: Es la Google Cloud ubicación de tu instancia de notebook administrada.
CLUSTER_NAME: Es el nombre del clúster nuevo.

Después de unos minutos, el clúster del servicio administrado para Apache Spark estará disponible para su uso. Obtén más información para crear clústeres de Managed Service para Apache Spark.

Abre JupyterLab

En la consola de Google Cloud , ve a la página Notebooks administrados.

Ir a Notebooks administrados
Junto al nombre de la instancia de notebooks administrados, haz clic en Abrir JupyterLab.

Ejecuta un archivo de notebook en tu clúster de Managed Service para Apache Spark

Puedes ejecutar un archivo de notebook en tu clúster de Managed Service para Apache Spark desde cualquier instancia de notebooks administrados en el mismo proyecto y región.

Ejecuta un nuevo archivo de notebook

En la interfaz de JupyterLab de tu instancia de notebooks administrados, selecciona Archivo> Nuevo> Notebook.
Los kernels disponibles de tu clúster de Managed Service para Apache Spark aparecen en el menú Seleccionar kernel. Selecciona el kernel que deseas usar y, luego, haz clic en Seleccionar.

Se abrirá el archivo de notebook nuevo.
Agrega el código al archivo de notebook nuevo y ejecútalo.

Para cambiar el kernel que deseas usar después de crear tu archivo de notebook, consulta la siguiente sección.

Ejecuta un archivo de notebook existente

En la interfaz de JupyterLab de la instancia de notebook administrada, haz clic en el botón Navegador de archivos, navega hasta el archivo del notebook que deseas ejecutar y ábrelo.
Para abrir el diálogo Seleccionar kernel, haz clic en el nombre del kernel de tu archivo de notebook, por ejemplo: Python (Local).
Para seleccionar un kernel desde tu clúster de Servicio administrado para Apache Spark, selecciona un nombre de kernel que incluya el nombre del clúster al final. Por ejemplo, un kernel de PySpark en un clúster de Managed Service for Apache Spark llamado mycluster se llama PySpark en mycluster.
Haz clic en Seleccionar para cerrar el cuadro de diálogo.

Ahora puedes ejecutar el código del archivo de notebook en el clúster del servicio administrado para Apache Spark.

¿Qué sigue?

Obtén más información sobre el Servicio administrado para Apache Spark.