Gerenciar sessões e E/S do BigQuery DataFrames
Este documento explica como gerenciar sessões e realizar operações de entrada e saída (E/S) ao usar o BigQuery DataFrames. Você vai aprender a criar e usar sessões, trabalhar com dados na memória e ler e gravar em arquivos e tabelas do BigQuery.
Sessões do BigQuery
O BigQuery DataFrames usa um objeto de sessão local internamente para gerenciar metadados. Cada objeto DataFrame e Series se conecta a uma sessão, cada
sessão se conecta a um local e cada consulta em uma
sessão é executada no local em que você criou a sessão. Use o exemplo de código a seguir para criar uma sessão manualmente e usá-la para carregar dados:
Não é possível combinar dados de várias instâncias de sessão, mesmo que você as inicialize com as mesmas configurações. O exemplo de código a seguir mostra que tentar combinar dados de diferentes instâncias de sessão causa um erro:
Sessão global
O BigQuery DataFrames fornece uma sessão global padrão que pode ser acessada com o bigframes.pandas.get_global_session() método. No
Colab, é necessário fornecer um ID do projeto para o
bigframes.pandas.options.bigquery.project atributo antes de usá-lo. Também é possível definir um local com o
bigframes.pandas.options.bigquery.location atributo, que é definido como
a US multirregião.
O exemplo de código a seguir mostra como definir opções para a sessão global:
Para redefinir o local ou o projeto da sessão global, encerre a sessão atual executando o método
bigframes.pandas.close_session().
Muitas funções integradas do BigQuery DataFrames usam a sessão global por padrão. O exemplo de código a seguir mostra como as funções integradas usam a sessão global:
Dados na memória
É possível criar objetos DataFrames e Series com estruturas de dados integradas do Python ou NumPy, de maneira semelhante à criação de objetos com pandas. Use o exemplo de código a seguir para criar um objeto:
Para converter objetos pandas em objetos DataFrames usando o método read_pandas()
ou construtores, use o exemplo de código a seguir:
Para usar o método to_pandas() para carregar dados do BigQuery DataFrames na
memória, use o exemplo de código a seguir:
Estimativa de custos com o parâmetro dry_run
O carregamento de uma grande quantidade de dados pode levar muito tempo e recursos. Para saber quantos dados estão sendo processados, use o dry_run=True parâmetro na
to_pandas() chamada. Use o exemplo de código a seguir para executar um teste:
Ler e gravar arquivos
É possível ler dados de arquivos compatíveis em um BigQuery DataFrames. Esses arquivos podem estar na sua máquina local ou no Cloud Storage. Use o exemplo de código a seguir para ler dados de um arquivo CSV:
Para salvar o BigQuery DataFrames em arquivos locais ou do Cloud Storage
usando o to_csv método, use o exemplo de código a seguir:
Ler e gravar tabelas do BigQuery
Para criar o BigQuery DataFrames usando referências tabela do BigQuery
e a função bigframes.pandas.read_gbq, use o exemplo de código a seguir:
Para usar uma string SQL com a read_gbq() função para ler dados no
BigQuery DataFrames, use o exemplo de código a seguir:
Para salvar o objeto DataFrame em uma tabela do BigQuery, use o método
to_gbq() do objeto DataFrame. O exemplo de código a seguir mostra como fazer isso:
A seguir
- Saiba mais sobre o BigQuery DataFrames.
- Aprenda a trabalhar com tipos de dados no BigQuery DataFrames.
- Aprenda a visualizar gráficos usando o BigQuery DataFrames.
- Confira a referência da API BigQuery DataFrames.