L'estensione Google Cloud Data Agent Kit per Visual Studio Code consente di utilizzare i notebook per la pulizia dei dati, feature engineering e l'analisi approfondita.Sono disponibili tre tipi di notebook tra cui scegliere.
- Notebook BigQuery DataFrames. Si tratta di notebook Python che consentono di elaborare set di dati di grandi dimensioni in BigQuery utilizzando le API pandas e scikit-learn. Oltre a Python, supportano la scrittura di codice in GoogleSQL per BigQuery.
Notebook Apache Spark gestiti con kernel locale. Si tratta di notebook Python che consentono di creare ed eseguire job su Managed Service for Apache Spark utilizzando la libreria Spark Connect.
Notebook Apache Spark gestiti con kernel remoto. Questi notebook consentono di eseguire il notebook su un kernel remoto che viene eseguito interamente su Managed Service for Apache Spark. Nessuna parte del codice viene eseguita localmente sul computer. Oltre a PySpark, puoi scrivere il codice in Spark SQL con l'aiuto del comando magico della cella
%%sparksql.
Prima di iniziare
Per i notebook BigQuery, la libreria bigframes deve essere installata nello stesso ambiente virtuale Python in cui esegui il notebook. Quando crei un nuovo notebook, la cella di inizializzazione contiene la seguente riga, che è commentata:
#%pip install --upgrade bigframes
(Facoltativo) Se non hai installato la libreria
bigframesnell'ambiente virtuale Python, rimuovi il commento.(Facoltativo) Se prevedi di scrivere codice SQL nel notebook, installa
bigquery-magics:
pip install --upgrade bigquery-magics
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per eseguire i notebook BigQuery, chiedi all'amministratore di concederti il ruolo BigQuery Studio
User
(roles/bigquery.studioUser) nel progetto selezionato nell'estensione.
Per ottenere le autorizzazioni necessarie per i notebook Managed Service for Apache Spark, chiedi all'amministratore di concederti i seguenti ruoli nel progetto:
- Editor Dataproc
(
roles/dataproc.editor) - Editor
Dataproc Serverless
(
roles/dataproc.serverlessEditor)
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni. Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Trasforma i tuoi dati
Per i dati in una tabella BigLake o BigQuery, l'estensione fornisce modelli di notebook per iniziare.
Vai alla tabella
Vai a una tabella BigQuery o BigLake:
- Apri la tavolozza dei comandi premendo
Ctrl/Cmd-Shift-P. - Espandi l'explorer del catalogo e trova BigQuery o BigLake.
- Fai clic con il tasto destro del mouse sull'ID della tabella.
Nel menu mobile, scegli Carica in Spark DataFrame o Carica in BigQuery DataFrame. Un nuovo editor mostra informazioni sulla tabella.
Puoi anche trovare la tabella utilizzando la ricerca universale. Fai clic sull'ID della tabella per aprire un nuovo editor, fai clic sulla scheda Dati e poi scegli Carica in Spark DataFrame o Carica in BigQuery DataFrame.
Inizializza un notebook
Dopo aver caricato la tabella, si apre un nuovo notebook Jupyter in una scheda dell'editor contenente il codice necessario per caricare la tabella nel tipo di DataFrame scelto.
Se non hai installato la libreria richiesta nell'ambiente virtuale Python, rimuovi il commento dalla riga pip install.
Fai clic su Seleziona kernel e scegli un kernel Python.
Per i notebook Managed Spark con kernel remoti, devi scegliere un kernel Spark remoto.
Esegui la cella facendo clic su ▷ Esegui tutto o premendo
Shift+Enternella parte inferiore della cella.Se ti viene chiesto di installare il software mancante, fai clic su Installa.
La cella crea un DataFrame contenente i dati della tabella selezionata.
Applica le trasformazioni dei dati al DataFrame
Aggiungi altre celle al notebook e scrivi il codice per trasformare i dati. Per BigQuery DataFrames, puoi trasformare il DataFrame utilizzando l' API compatibile con pandas fornita da BigQuery DataFrames.
In alternativa, BigQuery DataFrames fornisce un comando magico che puoi utilizzare per trasformare un DataFrame utilizzando SQL in un notebook Jupyter. Per trasformare i dati utilizzando SQL:
Crea ed esegui una cella per attivare i comandi magici di Jupyter.
%load_ext bigframesCrea una cella SQL utilizzando il comando magico
%%bqsql.
Salva i risultati
Utilizza uno dei tanti metodi di output forniti dal tipo di DataFrame per salvare i dati trasformati in BigQuery o Cloud Storage. Per BigQuery DataFrames, i metodi di output includono i seguenti:
Per i dati di piccole dimensioni, puoi esportarli in Arrow o Pandas per ulteriori manipolazioni e visualizzazioni locali.
Libera spazio
Per evitare che al tuo Google Cloud account vengano addebitati costi, elimina le risorse che hai creato ma di cui non hai più bisogno.