Manipolare i dati con BigQuery DataFrames
Questo documento descrive le funzionalità di manipolazione dei dati disponibili con BigQuery DataFrames. Puoi trovare le funzioni descritte nella
bigframes.bigquery libreria.
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per completare le attività descritte in questo documento, chiedi all'amministratore di concederti i seguenti ruoli IAM per il progetto:
- Utente job BigQuery (
roles/bigquery.jobUser) - Utente sessione di lettura BigQuery (
roles/bigquery.readSessionUser) -
Utilizza BigQuery DataFrames in un notebook BigQuery:
- Utente BigQuery (
roles/bigquery.user) - Utente runtime blocco note (
roles/aiplatform.notebookRuntimeUser) - Creatore di codice (
roles/dataform.codeCreator)
- Utente BigQuery (
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Quando esegui l'autenticazione dell'utente finale in un ambiente interattivo come un notebook, Python REPL o la riga di comando, BigQuery DataFrames richiede l'autenticazione, se necessario. In caso contrario, scopri come configurare le credenziali predefinite dell'applicazione per vari ambienti.
API pandas
Una caratteristica importante di BigQuery DataFrames è che l'
bigframes.pandas API
è progettata per essere simile alle API della libreria pandas. Questo design ti consente di utilizzare pattern di sintassi familiari per le attività di manipolazione dei dati. Le operazioni definite tramite l'API BigQuery DataFrames vengono eseguite lato server, operando direttamente sui dati archiviati in BigQuery ed eliminando la necessità di trasferire i set di dati da BigQuery.
Per verificare quali API pandas sono supportate da BigQuery DataFrames, consulta API pandas supportate.
Ispezionare e manipolare i dati
Puoi utilizzare l'API bigframes.pandas per eseguire operazioni di ispezione e
calcolo dei dati. Il seguente esempio di codice utilizza la bigframes.pandas
libreria per ispezionare la colonna body_mass_g, calcolare la body_mass media e
calcolare la body_mass media per species:
Libreria BigQuery
La libreria BigQuery fornisce funzioni SQL di BigQuery che potrebbero non avere un equivalente pandas. Le sezioni seguenti presentano alcuni esempi.
Elaborare i valori degli array
Puoi utilizzare la bigframes.bigquery.array_agg() funzione nella
bigframes.bigquery libreria per aggregare i valori dopo un'operazione groupby:
Puoi anche utilizzare le funzioni di array array_length() e array_to_string().
Creare un oggetto Series di tipo struct
Puoi utilizzare la bigframes.bigquery.struct() funzione nella
bigframes.bigquery libreria per creare un nuovo oggetto Series di tipo struct con
sottocampi per ogni colonna in un DataFrame:
Convertire i timestamp in epoche Unix
Puoi utilizzare la bigframes.bigquery.unix_micros() funzione nella
bigframes.bigquery libreria per convertire i timestamp in microsecondi Unix:
Puoi anche utilizzare le funzioni temporali unix_seconds() e unix_millis().
Utilizzare la funzione scalare SQL
Puoi utilizzare la bigframes.bigquery.sql_scalar() funzione nella
bigframes.bigquery libreria per accedere alla sintassi SQL arbitraria che rappresenta un'
espressione a colonna singola:
Passaggi successivi
- Scopri di più sulle funzioni Python personalizzate per BigQuery DataFrames.
- Scopri come generare codice BigQuery DataFrames con Gemini.
- Scopri come analizzare i download di pacchetti da PyPI con BigQuery DataFrames.
- Visualizza il codice sorgente, i notebook di esempio e gli esempi di BigQuery DataFrames su GitHub.
- Esplora il riferimento API BigQuery DataFrames.