Componente Jupyter facoltativo di Managed Service per Apache Spark

Puoi installare componenti aggiuntivi come Jupyter quando crei un cluster Managed Service for Apache Spark utilizzando la funzionalità Componenti facoltativi. Questa pagina descrive il componente Jupyter.

Il componente Jupyter è un notebook monoutente basato su web per l'analisi interattiva dei dati e supporta l'interfaccia utente web JupyterLab. L'interfaccia utente web di Jupyter è disponibile sulla porta 8123 nel primo nodo master del cluster.

Avviare i notebook per più utenti. Puoi creare un'istanza di Vertex AI Workbench abilitata per Managed Service for Apache Spark o installare il plug-in JupyterLab di Managed Service for Apache Spark su una VM per pubblicare notebook per più utenti.

Configura Jupyter. Jupyter può essere configurato fornendo dataproc:jupyter proprietà del cluster. Per ridurre il rischio di esecuzione di codice remoto tramite API del server notebook non protette, l'impostazione predefinita della proprietà del cluster dataproc:jupyter.listen.all.interfaces è false, che limita le connessioni a localhost (127.0.0.1) quando il gateway dei componenti è attivato (l'attivazione del gateway dei componenti è necessaria durante l'installazione del componente Jupyter).

Il notebook Jupyter fornisce un kernel Python per eseguire il codice Spark e un kernel PySpark. Per impostazione predefinita, i blocchi note vengono salvati in Cloud Storage nel bucket gestione temporanea Managed Service for Apache Spark, specificato dall'utente o creato automaticamente quando viene creato il cluster. La posizione può essere modificata al momento della creazione del cluster utilizzando la proprietà del cluster dataproc:jupyter.notebook.gcs.dir.

Lavorare con i file di dati. Puoi utilizzare un notebook Jupyter per lavorare con i file di dati che sono stati caricati in Cloud Storage. Poiché il connettore Cloud Storage è preinstallato su un cluster Managed Service for Apache Spark, puoi fare riferimento ai file direttamente nel notebook. Ecco un esempio che accede ai file CSV in Cloud Storage:

df = spark.read.csv("gs://bucket/path/file.csv")
df.show()

Per esempi di PySpark, consulta Funzioni generiche di caricamento e salvataggio.

Installa Jupyter

Installa il componente quando crei un cluster Managed Service for Apache Spark. Il componente Jupyter richiede l'attivazione del componente gateway di Managed Service for Apache Spark.

Console

  1. Attiva il componente.
    • Nella console Google Cloud , apri la pagina Managed Service for Apache Spark Crea un cluster. Il riquadro Configura cluster è selezionato.
    • Nella sezione Componenti:

Interfaccia a riga di comando gcloud

Per creare un cluster Managed Service for Apache Spark che includa il componente Jupyter, utilizza il comando gcloud dataproc clusters create cluster-name con il flag --optional-components.

Esempio dell'ultima versione dell'immagine predefinita

L'esempio seguente installa il componente Jupyter su un cluster che utilizza l'ultima versione dell'immagine predefinita.

gcloud dataproc clusters create cluster-name \
    --optional-components=JUPYTER \
    --region=region \
    --enable-component-gateway \
    ... other flags

API REST

Il componente Jupyter può essere installato tramite l'API Managed Service for Apache Spark utilizzando SoftwareConfig.Component come parte di una richiesta clusters.create.

Apri le UI di Jupyter e JupyterLab

Fai clic sui link del gateway dei componenti della consoleGoogle Cloud per aprire nell'interfaccia utente di Jupyter Notebook o JupyterLab in esecuzione sul nodo master del cluster nel browser locale.

Seleziona "GCS" o "Disco locale" per creare un nuovo notebook Jupyter in una delle due posizioni.

Collega le GPU ai nodi master e worker

Puoi aggiungere GPU ai nodi master e worker del cluster quando utilizzi un notebook Jupyter per:

  1. Preelabora i dati in Spark, poi raccogli un DataFrame sul master ed esegui TensorFlow
  2. Utilizzare Spark per orchestrare le esecuzioni di TensorFlow in parallelo
  3. Esegui Tensorflow-on-YARN
  4. Utilizzo con altri scenari di machine learning che utilizzano GPU