Introdução aos BigQuery DataFrames

O BigQuery DataFrames é um conjunto de bibliotecas Python de código aberto que permite aproveitar o processamento de dados do BigQuery usando APIs conhecidas do Python. O BigQuery DataFrames fornece um DataFrame em Python com tecnologia do mecanismo do BigQuery e implementa as APIs pandas e scikit-learn enviando o processamento para o BigQuery por meio da conversão de SQL. Isso permite que você use o BigQuery para explorar e processar terabytes de dados e também treinar modelos de machine learning (ML), tudo com APIs Python.

Se você conhece o pandas, pode usar o BigQuery DataFrames para trabalhar com dados do BigQuery fazendo mudanças mínimas no seu código. Por exemplo, você pode usar métodos pandas conhecidos para analisar dados de uma tabela do BigQuery:

import bigframes.pandas as bpd

# Load data from BigQuery
query_or_table = "bigquery-public-data.ml_datasets.penguins"
bq_df = bpd.read_gbq(query_or_table)

# Inspect one of the columns (or series) of the DataFrame:
bq_df["body_mass_g"]

# Compute the mean of this series:
average_body_mass = bq_df["body_mass_g"].mean()
print(f"average_body_mass: {average_body_mass}")

# Find the heaviest species using the groupby operation to calculate the
# mean body_mass_g:
(
    bq_df["body_mass_g"]
    .groupby(by=bq_df["species"])
    .mean()
    .sort_values(ascending=False)
    .head(10)
)

Benefícios dos BigQuery DataFrames

O BigQuery DataFrames faz o seguinte:

  • Oferece mais de 750 APIs pandas e scikit-learn implementadas por meio da conversão SQL transparente para APIs do BigQuery e do BigQuery ML.
  • Adia a execução de consultas para melhorar o desempenho.
  • Amplia as transformações de dados com funções Python definidas pelo usuário para permitir processar dados em Google Cloud. Elas são implantadas automaticamente como funções remotas do BigQuery.
  • Integração com a plataforma de agentes do Gemini Enterprise para usar modelos do Gemini na geração de texto.

Licenciamento

O DataFrames do BigQuery é distribuído com a licença Apache-2.0.

O BigQuery DataFrames também contém código derivado dos seguintes pacotes de terceiros:

Para mais detalhes, consulte o diretório third_party/bigframes_vendored no repositório GitHub do DataFrames do BigQuery.

Cotas e limites

  • As cotas do BigQuery se aplicam aos DataFrames do BigQuery, incluindo hardware, software e componentes de rede.
  • Há suporte para um subconjunto de pandas e APIs do scikit-learn. Para mais informações, consulte APIs pamdas compatíveis.
  • É necessário limpar explicitamente qualquer função do Cloud Run criada automaticamente como parte da limpeza da sessão. Para mais informações, consulte APIs pandas compatíveis.

Preços

  • O BigQuery DataFrames é um conjunto de bibliotecas Python de código aberto disponíveis para download sem custo financeiro adicional.
  • O BigQuery DataFrames usa o BigQuery, as funções do Cloud Run, a plataforma de agentes e outros serviços doGoogle Cloud , que têm custos próprios.
  • Durante o uso regular, o DataFrames do BigQuery armazena dados temporários, como resultados intermediários, nas tabelas do BigQuery. Por padrão, elas são mantidas por sete dias e você é cobrado pelos dados armazenados nelas. As tabelas são criadas no conjunto de dados _anonymous_ do projeto Google Cloud especificado na opção bf.options.bigquery.project.

A seguir