Puoi installare componenti aggiuntivi come Jupyter quando crei un cluster Dataproc utilizzando la funzionalità Componenti facoltativi. Questa pagina descrive il componente Jupyter.
Il componente Jupyter
è un notebook basato sul web per un singolo utente per l'analisi interattiva dei dati e supporta l'interfaccia utente web
JupyterLab. L'interfaccia utente web di Jupyter è disponibile sulla porta 8123 nel primo nodo master del cluster.
Avviare i notebook per più utenti. Puoi creare un'istanza di Vertex AI Workbench abilitata per Dataproc o installare il plug-in Dataproc JupyterLab su una VM per fornire notebook a più utenti.
Configurare Jupyter. Jupyter può essere configurato fornendo dataproc:jupyter
le proprietà del cluster.
Per ridurre il rischio di esecuzione di codice remoto tramite le API del server di notebook non protette, l'impostazione predefinita della proprietà del cluster dataproc:jupyter.listen.all.interfaces è false, che limita le connessioni a localhost (127.0.0.1) quando il gateway dei componenti è abilitato (l'attivazione del gateway dei componenti è obbligatoria quando si installa il componente Jupyter).
Il notebook Jupyter fornisce un kernel Python per eseguire il codice Spark e un
kernel PySpark. Per impostazione predefinita, i notebook vengono salvati in Cloud Storage
nel bucket temporaneo Dataproc, specificato dall'utente o
creato automaticamente
quando viene creato il cluster. La località può essere modificata al momento della creazione del cluster utilizzando la
dataproc:jupyter.notebook.gcs.dir proprietà del cluster.
Utilizzare i file di dati. Puoi utilizzare un notebook Jupyter per lavorare con i file di dati che sono stati caricati in Cloud Storage. Poiché il connettore Cloud Storage è preinstallato su un cluster Dataproc, puoi fare riferimento ai file direttamente nel notebook. Ecco un esempio di accesso ai file CSV in Cloud Storage:
df = spark.read.csv("gs://bucket/path/file.csv")
df.show()
Per esempi di PySpark, consulta Funzioni di caricamento e salvataggio generiche.
Installare Jupyter
Installa il componente quando crei un cluster Dataproc. Il componente Jupyter richiede l'attivazione del gateway dei componenti di Dataproc Componente.
Console
- Abilita il componente.
- Nella Google Cloud console, apri la pagina Crea un cluster Dataproc. Viene selezionato il riquadro Configura cluster.
- Nella sezione Componenti:
- In Componenti facoltativi, seleziona il il componente Jupyter.
- In Gateway dei componenti, seleziona Attiva gateway dei componenti (vedi Visualizzare e accedere agli URL del gateway dei componenti).
Interfaccia a riga di comando gcloud
Per creare un cluster Dataproc che includa il componente Jupyter,
utilizza il
comando gcloud dataproc clusters create cluster-name con il flag --optional-components.
Esempio della versione immagine predefinita più recente
L'esempio seguente installa il componente Jupyter su un cluster che utilizza la versione immagine predefinita più recente.
gcloud dataproc clusters create cluster-name \ --optional-components=JUPYTER \ --region=region \ --enable-component-gateway \ ... other flags
API REST
Il componente Jupyter
può essere installato tramite l'API Dataproc utilizzando
SoftwareConfig.Component
come parte di una
clusters.create
richiesta.
- Imposta la proprietà EndpointConfig.enableHttpPortAccess
su
truecome parte della richiestaclusters.createper consentire la connessione all'interfaccia utente web del notebook Jupyter utilizzando il gateway dei componenti.
Aprire le interfacce utente di Jupyter e JupyterLab
Fai clic sui Google Cloud link del gateway dei componenti della console per aprire nel browser locale l'interfaccia utente del notebook Jupyter o di JupyterLab in esecuzione su l nodo master del cluster.
Seleziona "GCS" o "Disco locale" per creare un nuovo notebook Jupyter in una delle due località.
Collegare le GPU ai nodi master e worker
Puoi aggiungere GPU ai nodi master e worker del cluster quando utilizzi un notebook Jupyter per:
- Preelaborare i dati in Spark, quindi raccogliere un DataFrame sul master ed eseguire TensorFlow
- Utilizzare Spark per orchestrare le esecuzioni di TensorFlow in parallelo
- Eseguire Tensorflow-on-YARN
- Utilizzare con altri scenari di machine learning che utilizzano le GPU