Instalar os BigQuery DataFrames

O BigQuery DataFrames fornece um DataFrame do Python e uma API de machine learning (ML) com tecnologia do mecanismo do BigQuery. O DataFrames do BigQuery é um pacote de código aberto.

Instalar os BigQuery DataFrames

Para instalar a versão mais recente do BigQuery DataFrames, execute pip install --upgrade bigframes.

Bibliotecas disponíveis

O DataFrames do BigQuery oferece três bibliotecas:

  • O bigframes.pandas fornece uma API pandas que pode ser usada para analisar e manipular dados no BigQuery. Muitas cargas de trabalho podem ser migradas do pandas para o bigframes apenas mudando algumas importações. A API bigframes.pandas é escalonável para permitir o processamento de terabytes de dados do BigQuery e usa o mecanismo de consulta do BigQuery para realizar cálculos.
  • O bigframes.bigquery oferece muitas funções SQL do BigQuery que podem não ter um equivalente no pandas.
  • O bigframes.ml fornece uma API semelhante à API scikit-learn para ML. Com os recursos de ML do DataFrames do BigQuery, é possível pré-processar dados e treinar modelos neles. Você também pode encadear essas ações para criar pipelines de dados.

Funções exigidas

Para conseguir as permissões necessárias a fim de concluir as tarefas neste documento, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto:

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias usando papéis personalizados ou outros papéis predefinidos.

Quando você está executando a autenticação de usuário final em um ambiente interativo, como um notebook, REPL do Python ou a linha de comando, o DataFrames do BigQuery solicita autenticação, se necessário. Caso contrário, consulte como configurar o Application Default Credentials para vários ambientes.

Configurar opções de instalação

Depois de instalar o BigQuery DataFrames, você pode especificar as seguintes opções.

Localização e projeto

É preciso especificar o local e o projeto em que você quer usar o BigQuery DataFrames.

É possível definir o local e o projeto no notebook da seguinte maneira:

import bigframes.pandas as bpd

PROJECT_ID = "bigframes-dev"  # @param {type:"string"}
REGION = "US"  # @param {type:"string"}

# Set BigQuery DataFrames options
# Note: The project option is not required in all environments.
# On BigQuery Studio, the project ID is automatically detected.
bpd.options.bigquery.project = PROJECT_ID

# Note: The location option is not required.
# It defaults to the location of the first table or query
# passed to read_gbq(). For APIs where a location can't be
# auto-detected, the location defaults to the "US" location.
bpd.options.bigquery.location = REGION

Local de processamento dos dados

O DataFrames do BigQuery foi projetado para escalonar, o que é alcançado mantendo os dados e o processamento no serviço BigQuery. No entanto, é possível transferir dados para a memória da máquina cliente chamando .to_pandas() em um objeto DataFrame ou Series. Nesse caso, a limitação de memória da máquina cliente será aplicada.

A seguir