Installa BigQuery DataFrames
BigQuery DataFrames fornisce un'API Python DataFrame e di machine learning (ML) basata sul motore BigQuery. BigQuery DataFrames è un pacchetto open source.
Installa BigQuery DataFrames
Per installare l'ultima versione di BigQuery DataFrames, esegui pip install
--upgrade bigframes.
Librerie disponibili
BigQuery DataFrames fornisce tre librerie:
bigframes.pandasfornisce un'API pandas che puoi utilizzare per analizzare e manipolare i dati in BigQuery. Molti carichi di lavoro possono essere migrati da pandas a bigframes modificando solo alcuni import. L'APIbigframes.pandasè scalabile per supportare l'elaborazione di terabyte di dati BigQuery e utilizza il motore di query BigQuery per eseguire i calcoli.bigframes.bigqueryfornisce molte funzioni SQL BigQuery che potrebbero non avere un equivalente pandas.bigframes.mlfornisce un'API simile all'API scikit-learn per il machine learning. Le funzionalità di ML in BigQuery DataFrames ti consentono di preelaborare i dati e poi addestrare i modelli su questi dati. Puoi anche concatenare queste azioni per creare pipeline di dati.
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per completare le attività descritte in questo documento, chiedi all'amministratore di concederti i seguenti ruoli IAM nel tuo progetto:
-
Utente job BigQuery (
roles/bigquery.jobUser) -
BigQuery Read Session User (
roles/bigquery.readSessionUser) -
Utilizza BigQuery DataFrames in un notebook BigQuery:
-
Utente BigQuery (
roles/bigquery.user) -
Utente runtime notebook (
roles/aiplatform.notebookRuntimeUser) -
Code Creator (
roles/dataform.codeCreator)
-
Utente BigQuery (
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Quando esegui l'autenticazione dell'utente finale in un ambiente interattivo come un notebook, Python REPL o la riga di comando, BigQuery DataFrames richiede l'autenticazione, se necessario. In caso contrario, consulta come configurare le credenziali predefinite dell'applicazione per vari ambienti.
Configura le opzioni di installazione
Dopo aver installato BigQuery DataFrames, puoi specificare le seguenti opzioni.
Posizione e progetto
Devi specificare la posizione e il progetto in cui vuoi utilizzare BigQuery DataFrames.
Puoi definire la posizione e il progetto nel notebook nel seguente modo:
Posizione di elaborazione dei dati
BigQuery DataFrames è progettato per la scalabilità, che
raggiunge mantenendo i dati e l'elaborazione sul servizio
BigQuery. Tuttavia, puoi importare i dati nella memoria della macchina client chiamando .to_pandas() su un oggetto DataFrame o Series. Se
scegli di farlo, si applica la limitazione di memoria della macchina client.
Passaggi successivi
- Scopri di più sulla manipolazione dei dati con BigQuery DataFrames.
- Scopri come generare codice BigQuery DataFrames con Gemini.
- Scopri come analizzare i download di pacchetti da PyPI con BigQuery DataFrames.
- Visualizza il codice sorgente, i notebook di esempio e gli esempi di BigQuery DataFrames su GitHub.
- Esplora il riferimento API BigQuery DataFrames.