Instalar os BigQuery DataFrames
O BigQuery DataFrames fornece um DataFrame do Python e uma API de machine learning (ML) com tecnologia do mecanismo do BigQuery. O DataFrames do BigQuery é um pacote de código aberto.
Instalar os BigQuery DataFrames
Para instalar a versão mais recente do BigQuery DataFrames, execute pip install
--upgrade bigframes.
Bibliotecas disponíveis
O DataFrames do BigQuery oferece três bibliotecas:
- O
bigframes.pandasfornece uma API pandas que pode ser usada para analisar e manipular dados no BigQuery. Muitas cargas de trabalho podem ser migradas do pandas para o bigframes apenas mudando algumas importações. A APIbigframes.pandasé escalonável para permitir o processamento de terabytes de dados do BigQuery e usa o mecanismo de consulta do BigQuery para realizar cálculos. - O
bigframes.bigqueryoferece muitas funções SQL do BigQuery que podem não ter um equivalente no pandas. - O
bigframes.mlfornece uma API semelhante à API scikit-learn para ML. Com os recursos de ML do DataFrames do BigQuery, é possível pré-processar dados e treinar modelos neles. Você também pode encadear essas ações para criar pipelines de dados.
Funções exigidas
Para conseguir as permissões necessárias a fim de concluir as tarefas neste documento, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto:
-
Usuário de jobs do BigQuery (
roles/bigquery.jobUser) -
Usuário de sessão de leitura do BigQuery (
roles/bigquery.readSessionUser) -
Use DataFrames do BigQuery em um notebook do BigQuery:
-
Usuário do BigQuery (
roles/bigquery.user) -
Usuário do ambiente de execução do notebook (
roles/aiplatform.notebookRuntimeUser) -
Criador de código (
roles/dataform.codeCreator)
-
Usuário do BigQuery (
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias usando papéis personalizados ou outros papéis predefinidos.
Quando você está executando a autenticação de usuário final em um ambiente interativo, como um notebook, REPL do Python ou a linha de comando, o DataFrames do BigQuery solicita autenticação, se necessário. Caso contrário, consulte como configurar o Application Default Credentials para vários ambientes.
Configurar opções de instalação
Depois de instalar o BigQuery DataFrames, você pode especificar as seguintes opções.
Localização e projeto
É preciso especificar o local e o projeto em que você quer usar o BigQuery DataFrames.
É possível definir o local e o projeto no notebook da seguinte maneira:
Local de processamento dos dados
O DataFrames do BigQuery foi projetado para escalonar, o que é alcançado mantendo os dados e o processamento no serviço BigQuery. No entanto, é possível transferir dados para a memória da máquina cliente chamando .to_pandas() em um objeto DataFrame ou Series. Nesse caso, a limitação de memória da máquina cliente será aplicada.
A seguir
- Saiba como manipular dados com o BigQuery DataFrames.
- Saiba como gerar código do BigQuery DataFrames com o Gemini.
- Saiba como analisar downloads de pacotes do PyPI com o BigQuery DataFrames.
- Confira o código-fonte, os notebooks de exemplo e as amostras dos DataFrames do BigQuery no GitHub.
- Confira a referência da API BigQuery DataFrames.