Introdução aos BigQuery DataFrames
O BigQuery DataFrames é um conjunto de bibliotecas Python de código aberto que permite aproveitar o processamento de dados do BigQuery usando APIs conhecidas do Python. O BigQuery DataFrames fornece um DataFrame em Python com tecnologia do mecanismo do BigQuery e implementa as APIs pandas e scikit-learn enviando o processamento para o BigQuery por meio da conversão de SQL. Isso permite que você use o BigQuery para explorar e processar terabytes de dados e também treinar modelos de machine learning (ML), tudo com APIs Python.
Se você conhece o pandas, pode usar o BigQuery DataFrames para trabalhar com dados do BigQuery fazendo mudanças mínimas no seu código. Por exemplo, você pode usar métodos conhecidos do pandas para analisar dados de uma tabela do BigQuery:
Benefícios dos BigQuery DataFrames
O BigQuery DataFrames faz o seguinte:
- Oferece mais de 750 APIs pandas e scikit-learn implementadas por meio da conversão SQL transparente para APIs do BigQuery e do BigQuery ML.
- Adia a execução de consultas para melhorar o desempenho.
- Amplia as transformações de dados com funções Python definidas pelo usuário para permitir processar dados em Google Cloud. Elas são implantadas automaticamente como funções remotas do BigQuery.
- Integração com a Vertex AI que permite usar modelos do Gemini para geração de texto.
Licenciamento
O DataFrames do BigQuery é distribuído com a licença Apache-2.0.
O BigQuery DataFrames também contém código derivado dos seguintes pacotes de terceiros:
Para mais detalhes, consulte o diretório
third_party/bigframes_vendored
no repositório GitHub do DataFrames do BigQuery.
Cotas e limites
- As cotas do BigQuery se aplicam aos DataFrames do BigQuery, incluindo hardware, software e componentes de rede.
- Há suporte para um subconjunto de pandas e APIs do scikit-learn. Para mais informações, consulte APIs pamdas compatíveis.
- É necessário limpar explicitamente qualquer função do Cloud Run criada automaticamente como parte da limpeza da sessão. Para mais informações, consulte APIs pandas compatíveis.
Preços
- O BigQuery DataFrames é um conjunto de bibliotecas Python de código aberto disponíveis para download sem custo financeiro adicional.
- O BigQuery DataFrames usa o BigQuery, as funções do Cloud Run, a Vertex AI e outros serviços doGoogle Cloud , que têm custos próprios.
- Durante o uso regular, o DataFrames do BigQuery armazena dados temporários,
como resultados intermediários, nas tabelas do BigQuery. Por padrão, elas são mantidas por sete dias e você é cobrado pelos dados armazenados nelas. As tabelas são criadas no conjunto de dados
_anonymous_do projeto Google Cloud especificado na opçãobf.options.bigquery.project.
A seguir
- Conheça o guia de início rápido do BigQuery DataFrames.
- Instale os BigQuery DataFrames.
- Saiba como visualizar gráficos usando o BigQuery DataFrames.
- Saiba como
usar o adaptador
dbt-bigquery.