Introdução aos BigQuery DataFrames

O BigQuery DataFrames é um conjunto de bibliotecas Python de código aberto que permite aproveitar o processamento de dados do BigQuery usando APIs conhecidas do Python. O BigQuery DataFrames fornece um DataFrame em Python com tecnologia do mecanismo do BigQuery e implementa as APIs pandas e scikit-learn enviando o processamento para o BigQuery por meio da conversão de SQL. Isso permite que você use o BigQuery para explorar e processar terabytes de dados e também treinar modelos de machine learning (ML), tudo com APIs Python.

Se você conhece o pandas, pode usar o BigQuery DataFrames para trabalhar com dados do BigQuery fazendo mudanças mínimas no seu código. Por exemplo, você pode usar métodos conhecidos do pandas para analisar dados de uma tabela do BigQuery:

import bigframes.pandas as bpd

# Load data from BigQuery
query_or_table = "bigquery-public-data.ml_datasets.penguins"
bq_df = bpd.read_gbq(query_or_table)

# Inspect one of the columns (or series) of the DataFrame:
bq_df["body_mass_g"]

# Compute the mean of this series:
average_body_mass = bq_df["body_mass_g"].mean()
print(f"average_body_mass: {average_body_mass}")

# Find the heaviest species using the groupby operation to calculate the
# mean body_mass_g:
(
    bq_df["body_mass_g"]
    .groupby(by=bq_df["species"])
    .mean()
    .sort_values(ascending=False)
    .head(10)
)

Benefícios dos BigQuery DataFrames

O BigQuery DataFrames faz o seguinte:

  • Oferece mais de 750 APIs pandas e scikit-learn implementadas por meio da conversão SQL transparente para APIs do BigQuery e do BigQuery ML.
  • Adia a execução de consultas para melhorar o desempenho.
  • Amplia as transformações de dados com funções Python definidas pelo usuário para permitir processar dados em Google Cloud. Elas são implantadas automaticamente como funções remotas do BigQuery.
  • Integração com a Vertex AI que permite usar modelos do Gemini para geração de texto.

Licenciamento

O DataFrames do BigQuery é distribuído com a licença Apache-2.0.

O BigQuery DataFrames também contém código derivado dos seguintes pacotes de terceiros:

Para mais detalhes, consulte o diretório third_party/bigframes_vendored no repositório GitHub do DataFrames do BigQuery.

Cotas e limites

  • As cotas do BigQuery se aplicam aos DataFrames do BigQuery, incluindo hardware, software e componentes de rede.
  • Há suporte para um subconjunto de pandas e APIs do scikit-learn. Para mais informações, consulte APIs pamdas compatíveis.
  • É necessário limpar explicitamente qualquer função do Cloud Run criada automaticamente como parte da limpeza da sessão. Para mais informações, consulte APIs pandas compatíveis.

Preços

  • O BigQuery DataFrames é um conjunto de bibliotecas Python de código aberto disponíveis para download sem custo financeiro adicional.
  • O BigQuery DataFrames usa o BigQuery, as funções do Cloud Run, a Vertex AI e outros serviços doGoogle Cloud , que têm custos próprios.
  • Durante o uso regular, o DataFrames do BigQuery armazena dados temporários, como resultados intermediários, nas tabelas do BigQuery. Por padrão, elas são mantidas por sete dias e você é cobrado pelos dados armazenados nelas. As tabelas são criadas no conjunto de dados _anonymous_ do projeto Google Cloud especificado na opção bf.options.bigquery.project.

A seguir