Installa BigQuery DataFrames

BigQuery DataFrames fornisce un'API Python DataFrame e di machine learning (ML) basata sul motore BigQuery. BigQuery DataFrames è un pacchetto open source.

Installa BigQuery DataFrames

Per installare l'ultima versione di BigQuery DataFrames, esegui pip install --upgrade bigframes.

Librerie disponibili

BigQuery DataFrames fornisce tre librerie:

  • bigframes.pandas fornisce un'API pandas che puoi utilizzare per analizzare e manipolare i dati in BigQuery. Molti carichi di lavoro possono essere migrati da pandas a bigframes modificando solo alcuni import. L'API bigframes.pandas è scalabile per supportare l'elaborazione di terabyte di dati BigQuery e utilizza il motore di query BigQuery per eseguire i calcoli.
  • bigframes.bigquery fornisce molte funzioni SQL BigQuery che potrebbero non avere un equivalente pandas.
  • bigframes.ml fornisce un'API simile all'API scikit-learn per il machine learning. Le funzionalità di ML in BigQuery DataFrames ti consentono di preelaborare i dati e poi addestrare i modelli su questi dati. Puoi anche concatenare queste azioni per creare pipeline di dati.

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per completare le attività descritte in questo documento, chiedi all'amministratore di concederti i seguenti ruoli IAM nel tuo progetto:

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

Quando esegui l'autenticazione dell'utente finale in un ambiente interattivo come un notebook, Python REPL o la riga di comando, BigQuery DataFrames richiede l'autenticazione, se necessario. In caso contrario, consulta come configurare le credenziali predefinite dell'applicazione per vari ambienti.

Configura le opzioni di installazione

Dopo aver installato BigQuery DataFrames, puoi specificare le seguenti opzioni.

Posizione e progetto

Devi specificare la posizione e il progetto in cui vuoi utilizzare BigQuery DataFrames.

Puoi definire la posizione e il progetto nel notebook nel seguente modo:

import bigframes.pandas as bpd

PROJECT_ID = "bigframes-dev"  # @param {type:"string"}
REGION = "US"  # @param {type:"string"}

# Set BigQuery DataFrames options
# Note: The project option is not required in all environments.
# On BigQuery Studio, the project ID is automatically detected.
bpd.options.bigquery.project = PROJECT_ID

# Note: The location option is not required.
# It defaults to the location of the first table or query
# passed to read_gbq(). For APIs where a location can't be
# auto-detected, the location defaults to the "US" location.
bpd.options.bigquery.location = REGION

Posizione di elaborazione dei dati

BigQuery DataFrames è progettato per la scalabilità, che raggiunge mantenendo i dati e l'elaborazione sul servizio BigQuery. Tuttavia, puoi importare i dati nella memoria della macchina client chiamando .to_pandas() su un oggetto DataFrame o Series. Se scegli di farlo, si applica la limitazione di memoria della macchina client.

Passaggi successivi