Puedes instalar componentes adicionales como Jupyter cuando creas un clúster de Dataproc con la función de componentes opcionales. En esta página, se describe el componente de Jupyter.
El componente Jupyter
es un notebook para un solo usuario basado en la Web para estadísticas de datos interactivos y es compatible con la IU web de JupyterLab. La IU web de Jupyter está disponible en el puerto 8123 del primer nodo principal del clúster.
Inicia notebooks para varios usuarios. Puedes crear una instancia de Vertex AI Workbench habilitada para Dataproc o instalar el complemento de Dataproc JupyterLab en una VM para entregar notebooks a varios usuarios.
Configura Jupyter. Jupyter se puede configurar si se proporcionan las dataproc:jupyter
propiedades del clúster.
Para reducir el riesgo de ejecución del código remoto en las API de servidor de notebook no seguro, la configuración predeterminada de la propiedad del clúster dataproc:jupyter.listen.all.interfaces es false, que restringe las conexiones a localhost (127.0.0.1) cuando
la puerta de enlace de componentes está
habilitada (se requiere la activación de la puerta de enlace de componentes cuando se instala el componente de Jupyter).
El notebook de Jupyter proporciona un kernel de Python para ejecutar el código de Spark y un
kernel de PySpark. De forma predeterminada, los notebook se guardan en Cloud Storage
en el depósito de etapa de pruebas de Dataproc, que el usuario especifica o que se crea de forma automática
junto con el clúster. La ubicación se puede cambiar en el momento de la creación del clúster con la
dataproc:jupyter.notebook.gcs.dir propiedad del clúster.
Trabaja con archivos de datos. Puedes usar un notebook de Jupyter para trabajar con archivos de datos que se subieron a Cloud Storage. Dado que el conector de Cloud Storage está preinstalado en un clúster de Dataproc, puedes hacer referencia a los archivos directamente en tu notebook. A continuación, se muestra un ejemplo que accede a archivos CSV en Cloud Storage:
df = spark.read.csv("gs://bucket/path/file.csv")
df.show()
Consulta Funciones genéricas de carga y guardado para ver ejemplos de PySpark.
Instala Jupyter
Instala el componente cuando crees un clúster de Dataproc. El componente de Jupyter requiere la activación de la puerta de enlace de componentes de Dataproc .
Console
- Habilita el componente.
- En la Google Cloud consola, abre la página Create a cluster (Crear un clúster) de Dataproc. Se selecciona el panel Configurar clúster.
- En la sección Componentes:
- En Componentes opcionales, selecciona el el componente Jupyter.
- En Puerta de enlace de componentes, selecciona Habilitar puerta de enlace de componentes (consulta Visualiza y accede a las URL de la puerta de enlace de componentes).
gcloud CLI
Para crear un clúster de Dataproc que incluya el componente Jupyter,
usa el
comando gcloud dataproc clusters create cluster-name con la marca --optional-components.
Ejemplo de la versión de imagen predeterminada más reciente
En el siguiente ejemplo, se instala el componente de Jupyter en un clúster que usa la versión de imagen predeterminada más reciente.
gcloud dataproc clusters create cluster-name \ --optional-components=JUPYTER \ --region=region \ --enable-component-gateway \ ... other flags
API de REST
El componente de Jupyter
se puede instalar a través de la API de Dataproc mediante
SoftwareConfig.Component
como parte de una
clusters.create
solicitud.
- Configura la propiedad EndpointConfig.enableHttpPortAccess
en
truecomo parte de la solicitudclusters.createpara habilitar la conexión a la IU web del notebook de Jupyter mediante la puerta de enlace de componentes.
Abre las IU de Jupyter y JupyterLab
Haz clic en los Google Cloud vínculos de la puerta de enlace de componentes de la consola para abrir en tu navegador local el notebook de Jupyter o la IU de JupyterLab que se ejecutan en el nodo principal del clúster.
Selecciona "GCS" o "Disco Local" para crear un nuevo notebook de Jupyter en cualquier ubicación.
Adjunta GPU a nodos trabajadores o principales
Puedes agregar GPU a los nodos principales y trabajadores de tu clúster cuando usas un notebook de Jupyter para lo siguiente:
- Procesar los datos en Spark, luego recopilar un DataFrame en la instancia principal y ejecutar TensorFlow
- Usa Spark para organizar las ejecuciones de TensorFlow en paralelo
- Ejecuta Tensorflow-on-YARN
- Uso con otras situaciones de aprendizaje automático que usan GPU