Manipolare i dati con BigQuery DataFrames
Questo documento descrive le funzionalità di manipolazione dei dati disponibili con
BigQuery DataFrames. Puoi trovare le funzioni descritte nella
libreria bigframes.bigquery.
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per completare le attività descritte in questo documento, chiedi all'amministratore di concederti i seguenti ruoli IAM nel tuo progetto:
-
Utente job BigQuery (
roles/bigquery.jobUser) -
BigQuery Read Session User (
roles/bigquery.readSessionUser) -
Utilizza BigQuery DataFrames in un notebook BigQuery:
-
Utente BigQuery (
roles/bigquery.user) -
Utente runtime notebook (
roles/aiplatform.notebookRuntimeUser) -
Code Creator (
roles/dataform.codeCreator)
-
Utente BigQuery (
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Quando esegui l'autenticazione dell'utente finale in un ambiente interattivo come un notebook, Python REPL o la riga di comando, BigQuery DataFrames richiede l'autenticazione, se necessario. In caso contrario, consulta come configurare le credenziali predefinite dell'applicazione per vari ambienti.
API pandas
Una funzionalità degna di nota di BigQuery DataFrames è che l'API bigframes.pandas è progettata per essere simile alle API della libreria pandas. Questo design ti consente di utilizzare pattern di sintassi familiari per le attività di manipolazione dei dati. Le operazioni definite tramite l'API BigQuery DataFrames vengono eseguite lato server, operando direttamente sui dati archiviati in BigQuery ed eliminando la necessità di trasferire i set di dati al di fuori di BigQuery.
Per verificare quali API pandas sono supportate da BigQuery DataFrames, consulta la sezione API pandas supportate.
Ispezionare e manipolare i dati
Puoi utilizzare l'API bigframes.pandas per eseguire operazioni di ispezione e calcolo dei dati. Il seguente esempio di codice utilizza la libreria bigframes.pandas per ispezionare la colonna body_mass_g, calcolare la media body_mass e calcolare la media body_mass per species:
Libreria BigQuery
La libreria BigQuery fornisce funzioni SQL di BigQuery che potrebbero non avere un equivalente in pandas. Le sezioni seguenti presentano alcuni esempi.
Elaborare i valori dell'array
Puoi utilizzare la funzione bigframes.bigquery.array_agg() nella
libreria bigframes.bigquery per aggregare i valori dopo un'operazione groupby:
Puoi anche utilizzare le funzioni di array array_length() e array_to_string().
Crea un oggetto struct Series
Puoi utilizzare la funzione bigframes.bigquery.struct() nella libreria
bigframes.bigquery per creare un nuovo oggetto Series con
sottocampi per ogni colonna di un DataFrame:
Convertire i timestamp in epoch Unix
Puoi utilizzare la funzione bigframes.bigquery.unix_micros() nella
libreria bigframes.bigquery per convertire i timestamp in microsecondi Unix:
Puoi anche utilizzare le funzioni temporali unix_seconds() e unix_millis().
Utilizzare la funzione scalare SQL
Puoi utilizzare la funzione bigframes.bigquery.sql_scalar() nella libreria bigframes.bigquery per accedere a una sintassi SQL arbitraria che rappresenta un'espressione a una sola colonna:
Passaggi successivi
- Scopri di più sulle funzioni Python personalizzate per BigQuery DataFrames.
- Scopri come generare codice BigQuery DataFrames con Gemini.
- Scopri come analizzare i download di pacchetti da PyPI con BigQuery DataFrames.
- Visualizza il codice sorgente, i notebook di esempio e gli esempi di BigQuery DataFrames su GitHub.
- Esplora il riferimento API BigQuery DataFrames.