Utilizzare il plug-in BigQuery JupyterLab
Per richiedere feedback o assistenza per questa funzionalità, invia un'email all'indirizzo bigquery-ide-plugin@google.com.
Questo documento mostra come installare e utilizzare il plug-in BigQuery JupyterLab per eseguire le seguenti operazioni:
- Esplorare i dati di BigQuery.
- Utilizzare l'API BigQuery DataFrames.
- Eseguire il deployment di un notebook BigQuery DataFrames in Managed Service for Apache Airflow.
Il plug-in BigQuery JupyterLab include tutte le funzionalità del plug-in JupyterLab di Managed Service for Apache Spark, come la creazione di un modello di runtime serverless di Managed Service for Apache Spark, l'avvio e la gestione dei notebook, lo sviluppo con Apache Spark, il deployment del codice, e la gestione delle risorse.
Installare il plug-in BigQuery JupyterLab
Per installare e utilizzare il plug-in BigQuery JupyterLab:
Nel terminale locale, verifica di aver installato Python 3.8 o versioni successive sul sistema:
python3 --versionNel terminale locale, inizializza gcloud CLI:
gcloud initInstalla Pipenv, uno strumento per l'ambiente virtuale Python:
pip3 install pipenvCrea un nuovo ambiente virtuale:
pipenv shellInstalla JupyterLab nel nuovo ambiente virtuale:
pipenv install jupyterlabInstalla il plug-in BigQuery JupyterLab:
pipenv install bigquery-jupyter-pluginSe la versione di JupyterLab installata è precedente alla 4.0.0, abilita l'estensione del plug-in:
jupyter server extension enable bigquery_jupyter_pluginAvvia JupyterLab:
jupyter labJupyterLab si apre nel browser.
Aggiornare le impostazioni del progetto e della regione
Per impostazione predefinita, la sessione viene eseguita nel progetto e nella regione che hai impostato quando hai eseguito gcloud init. Per modificare le impostazioni del progetto e della regione per la sessione:
- Nel menu di JupyterLab, fai clic Impostazioni > Impostazioni di Google BigQuery.
Devi riavviare il plug-in per applicare le modifiche.
Esplorare i dati
Per lavorare con i dati di BigQuery in JupyterLab:
- Nella barra laterale di JupyterLab, apri il riquadro Esplora set di dati: fai clic sull'icona dei set di dati
. Per espandere un progetto, nel riquadro Esplora set di dati, fai clic sulla freccia di espansione accanto al nome del progetto.
Il riquadro Esplora set di dati mostra tutti i set di dati di un progetto che si trovano nella regione BigQuery configurata per la sessione. Puoi interagire con un progetto e un set di dati in vari modi:
- Per visualizzare le informazioni su un set di dati, fai clic sul nome del set di dati.
- Per visualizzare tutte le tabelle in un set di dati, fai clic sulla freccia di espansione accanto a l set di dati.
- Per visualizzare le informazioni su una tabella, fai clic sul nome della tabella.
- Per modificare il progetto o la regione BigQuery, aggiorna le impostazioni.
Eseguire i notebook
Per eseguire query sui dati di BigQuery da JupyterLab:
- Per aprire la pagina di avvio, fai clic su File > Nuovo Avvio app.
- Nella sezione Notebook BigQuery, fai clic sulla scheda BigQuery DataFrames. Si apre un nuovo notebook che mostra come iniziare a utilizzare BigQuery DataFrames.
I notebook BigQuery DataFrames supportano lo sviluppo Python in un kernel Python locale. Le operazioni di BigQuery DataFrames vengono eseguite da remoto su BigQuery, ma il resto del codice viene eseguito localmente sulla tua macchina. Quando un'operazione viene eseguita in BigQuery, sotto la cella di codice vengono visualizzati un ID del job di query e un link al job.
- Per visualizzare il job nella Google Cloud console, fai clic su Apri job.
Eseguire il deployment di un notebook BigQuery DataFrames
Puoi eseguire il deployment di un notebook BigQuery DataFrames in Managed Airflow utilizzando un modello di runtime serverless di Managed Service for Apache Spark. Devi utilizzare la versione di runtime 2.1 o successive.
- Nel notebook JupyterLab, fai clic su calendar_monthPianificatore job.
- In Nome job, inserisci un nome univoco per il job.
- In Ambiente, inserisci il nome dell'ambiente Managed Airflow in cui vuoi eseguire il deployment del job.
- Se il notebook è parametrizzato, aggiungi i parametri.
- Inserisci il nome del modello di runtime serverless.
- Per gestire gli errori di esecuzione del notebook, inserisci un numero intero per Numero di tentativi e un valore (in minuti) per Ritardo tra i tentativi.
Seleziona le notifiche di esecuzione da inviare, quindi inserisci i destinatari.
Le notifiche vengono inviate utilizzando la configurazione SMTP di Airflow.
Seleziona una pianificazione per il notebook.
Fai clic su Crea.
Quando pianifichi correttamente il notebook, questo viene visualizzato nell'elenco dei job pianificati nell'ambiente Managed Airflow selezionato.
Passaggi successivi
- Prova la guida rapida di BigQuery DataFrames.
- Scopri di più sull' API Python di BigQuery DataFrames.
- Utilizza JupyterLab per le sessioni batch e notebook serverless con Managed Service for Apache Spark.