Ejecuta una instancia de notebooks administrados en un clúster de Managed Service para Apache Spark
En esta página, se muestra cómo ejecutar el archivo de notebook de una instancia de notebooks administrados en un clúster de Managed Service for Apache Spark.
Antes de comenzar
- Accede a tu cuenta de Google Cloud . Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Notebooks and Managed Service for Apache Spark APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Notebooks and Managed Service for Apache Spark APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
Roles obligatorios
Para garantizar que la cuenta de servicio tenga los permisos necesarios para ejecutar un archivo de notebook en un clúster de Managed Service for Apache Spark, pídele a tu administrador que otorgue los siguientes roles de IAM a la cuenta de servicio:
-
Trabajador de Dataproc (
roles/dataproc.worker) en tu proyecto -
Editor de Dataproc (
roles/dataproc.editor) en el clúster para el permisodataproc.clusters.use
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
Estos roles predefinidos contienen los permisos necesarios para ejecutar un archivo de notebook en un clúster de Managed Service for Apache Spark. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos:
Permisos necesarios
Se requieren los siguientes permisos para ejecutar un archivo de notebook en un clúster de Managed Service for Apache Spark:
-
dataproc.agents.create -
dataproc.agents.delete -
dataproc.agents.get -
dataproc.agents.update -
dataproc.tasks.lease -
dataproc.tasks.listInvalidatedLeases -
dataproc.tasks.reportStatus -
dataproc.clusters.use
Es posible que tu administrador también pueda otorgar estos permisos a la cuenta de servicio con roles personalizados o con otros roles predefinidos.
Crea un clúster de Managed Service para Apache Spark
Para ejecutar un archivo de notebook de una instancia de notebooks administrados en un clúster de Managed Service para Apache Spark, tu clúster debe cumplir con los siguientes criterios:
La puerta de enlace del componente del clúster debe estar habilitada.
El clúster debe tener el componente de Jupyter.
El clúster debe estar en la misma región que la instancia de notebooks administrados.
Para crear tu clúster de Managed Service para Apache Spark, ingresa el siguiente comando en Cloud Shell o en otro entorno en el que esté instalada Google Cloud CLI.
gcloud dataproc clusters create CLUSTER_NAME\ --region=REGION \ --enable-component-gateway \ --optional-components=JUPYTER
Reemplaza lo siguiente:
REGION: Es la Google Cloud ubicación de tu instancia de notebook administrada.CLUSTER_NAME: Es el nombre del clúster nuevo.
Después de unos minutos, el clúster del servicio administrado para Apache Spark estará disponible para su uso. Obtén más información para crear clústeres de Managed Service para Apache Spark.
Abre JupyterLab
En la consola de Google Cloud , ve a la página Notebooks administrados.
Junto al nombre de la instancia de notebooks administrados, haz clic en Abrir JupyterLab.
Ejecuta un archivo de notebook en tu clúster de Managed Service para Apache Spark
Puedes ejecutar un archivo de notebook en tu clúster de Managed Service para Apache Spark desde cualquier instancia de notebooks administrados en el mismo proyecto y región.
Ejecuta un nuevo archivo de notebook
En la interfaz de JupyterLab de tu instancia de notebooks administrados, selecciona Archivo> Nuevo> Notebook.
Los kernels disponibles de tu clúster de Managed Service para Apache Spark aparecen en el menú Seleccionar kernel. Selecciona el kernel que deseas usar y, luego, haz clic en Seleccionar.
Se abrirá el archivo de notebook nuevo.
Agrega el código al archivo de notebook nuevo y ejecútalo.
Para cambiar el kernel que deseas usar después de crear tu archivo de notebook, consulta la siguiente sección.
Ejecuta un archivo de notebook existente
En la interfaz de JupyterLab de la instancia de notebook administrada, haz clic en el botón Navegador de archivos, navega hasta el archivo del notebook que deseas ejecutar y ábrelo.
Para abrir el diálogo Seleccionar kernel, haz clic en el nombre del kernel de tu archivo de notebook, por ejemplo: Python (Local).
Para seleccionar un kernel desde tu clúster de Servicio administrado para Apache Spark, selecciona un nombre de kernel que incluya el nombre del clúster al final. Por ejemplo, un kernel de PySpark en un clúster de Managed Service for Apache Spark llamado
myclusterse llama PySpark en mycluster.Haz clic en Seleccionar para cerrar el cuadro de diálogo.
Ahora puedes ejecutar el código del archivo de notebook en el clúster del servicio administrado para Apache Spark.
¿Qué sigue?
- Obtén más información sobre el Servicio administrado para Apache Spark.