Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Trasformazione dei dati

L'estensione Google Cloud Data Agent Kit per Visual Studio Code ti consente di utilizzare i blocchi note per la pulizia dei dati, l'feature engineering e l'analisi approfondita.Esistono tre tipi di blocchi note tra cui scegliere.

Blocchi note BigQuery DataFrames. Si tratta di notebook Python che consentono di elaborare set di dati di grandi dimensioni in BigQuery utilizzando le API pandas e scikit-learn. Supportano la scrittura di codice in GoogleSQL per BigQuery oltre a Python.
Notebook Apache Spark gestiti con kernel locale. Si tratta di notebook Python che consentono di creare ed eseguire job su Managed Service for Apache Spark utilizzando la libreria Spark Connect.
Notebook Apache Spark gestiti con kernel remoto. Questi notebook ti consentono di eseguire il notebook su un kernel remoto che viene eseguito interamente su Managed Service for Apache Spark. Nessuna parte del codice viene eseguita localmente sul tuo computer. Oltre a PySpark, puoi scrivere il codice in Spark SQL con l'aiuto del magic command %%sparksql.

Prima di iniziare

Per i notebook BigQuery, la libreria bigframes deve essere installata nello stesso ambiente virtuale Python in cui esegui il notebook. Quando crei un nuovo notebook, la cella di inizializzazione contiene la seguente riga, che è commentata:

#%pip install --upgrade bigframes

(Facoltativo) Se non hai installato la libreria bigframes nell'ambiente virtuale Python, rimuovi il commento.
(Facoltativo) Se prevedi di scrivere codice SQL nel notebook, installa bigquery-magics:

pip install --upgrade bigquery-magics

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per eseguire i notebook BigQuery, chiedi all'amministratore di concederti il ruolo BigQuery Studio User (roles/bigquery.studioUser) nel progetto selezionato nell'estensione.

Per ottenere le autorizzazioni necessarie per i blocchi note di Managed Service for Apache Spark, chiedi all'amministratore di concederti i seguenti ruoli sul progetto:

Editor Dataproc (roles/dataproc.editor)
Editor Dataproc Serverless (roles/dataproc.serverlessEditor)

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni. Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

Trasforma i tuoi dati

Per i dati in una tabella BigLake o BigQuery, l'estensione fornisce modelli di blocco note per iniziare.

Vai alla tabella

Vai a una tabella BigQuery o BigLake:

Apri la tavolozza dei comandi premendo Ctrl/Cmd-Shift-P.
Espandi Esplora cataloghi e trova il tuo BigQuery o BigLake.
Fai clic con il tasto destro del mouse sull'ID tabella.
Nel menu mobile, scegli Carica in Spark DataFrame o Carica in BigQuery DataFrame. Un nuovo editor mostra le informazioni sulla tabella.

Puoi trovare la tabella anche utilizzando la Ricerca universale. Fai clic sull'ID tabella per aprire un nuovo editor, fai clic sulla scheda Dati e poi scegli Carica in Spark DataFrame o Carica in BigQuery DataFrame.

Inizializzare un notebook

Dopo aver caricato la tabella, si apre un nuovo notebook Jupyter in una scheda dell'editor contenente il codice necessario per caricare la tabella nel tipo di dataframe scelto.

Se non hai installato la libreria richiesta nell'ambiente virtuale Python, rimuovi il commento dalla riga pip install.
Fai clic su Seleziona kernel e scegli un kernel Python.

Per i notebook Managed Spark con kernel remoti, devi scegliere un kernel Spark remoto.
Esegui la cella facendo clic su ▷ Esegui tutto o premendo Shift+Enter nella parte inferiore della cella.
Se ti viene chiesto di installare il software mancante, fai clic su Installa.

La cella crea un dataframe contenente i dati della tabella selezionata.

Applica le trasformazioni dei dati al DataFrame

Aggiungi altre celle al notebook e scrivi il codice per trasformare i dati. Per BigQuery DataFrames, puoi trasformare il DataFrame utilizzando l'API compatibile con pandas fornita da BigQuery DataFrames.

In alternativa, BigQuery DataFrames fornisce un comando magico che puoi utilizzare per trasformare un DataFrame utilizzando SQL in un notebook Jupyter. Per trasformare i dati utilizzando SQL:

Crea ed esegui una cella per attivare i comandi magici di Jupyter.

%load_ext bigframes
Crea una cella SQL utilizzando i magic %%bqsql.

Salvare i risultati

Utilizza uno dei numerosi metodi di output forniti dal tipo DataFrames per salvare i dati trasformati in BigQuery o Cloud Storage. Per BigQuery DataFrames, i metodi di output includono quanto segue:

Per i dati di piccole dimensioni, puoi esportarli in Arrow o Pandas per ulteriori manipolazioni e visualizzazioni locali.

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi, elimina le risorse che hai creato ma di cui non hai più bisogno.