É possível explorar os resultados da consulta do BigQuery usando os notebooks do Colab Enterprise no BigQuery.
Neste tutorial, você consulta dados de um conjunto de dados público do BigQuery e explora os resultados de consulta em um notebook.
Permissões necessárias
Para criar e executar notebooks, você precisa dos seguintes papéis do Identity and Access Management (IAM):
- Usuário do BigQuery (
roles/bigquery.user
) - Usuário do ambiente de execução do notebook (
roles/aiplatform.notebookRuntimeUser
) - Criador de código (
roles/dataform.codeCreator
)
Abrir resultados de consulta em um notebook
É possível executar uma consulta SQL e depois usar um notebook para explorar os dados. Essa abordagem é útil quando você quer modificar os dados no BigQuery antes de trabalhar com eles ou quando precisa apenas de um subconjunto dos campos na tabela.
No console do Google Cloud , acesse a página BigQuery.
No campo Digite para pesquisar, insira
bigquery-public-data
.Se o projeto não aparecer, insira
bigquery
no campo de pesquisa e clique em Pesquisar para todos os projetos para associar a string de pesquisa aos conjuntos de projetos que já existem.Selecione bigquery-public-data > ml_datasets > pinguins.
Na tabela pinguins, clique em
Ver ações e, em seguida, clique em Consultar.Adicione um asterisco (
*
) para seleção de campo à consulta gerada, de modo que ela fique parecida com o exemplo a seguir:SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
Clique em
Executar.No painel Resultados de consulta, clique em Explorar dados e em Explorar com notebook Python.
Preparar o notebook para uso
Prepare o notebook para uso conectando-se a um ambiente de execução e definindo os valores padrão do aplicativo.
- No cabeçalho do notebook, clique em Conectar para se conectar ao ambiente de execução padrão.
- No bloco de código Setup, clique em Executar célula.
Explorar os dados
- Para carregar os dados dos pinguins em um BigQuery DataFrame e mostrar os resultados, clique em Executar célula no bloco de código na seção Conjunto de resultados carregado do job do BigQuery como um DataFrame.
- Para ver métricas descritivas dos dados, clique em Executar célula no bloco de código na seção Mostrar estatísticas descritivas usando describe().
- Opcional: use outras funções ou pacotes do Python para explorar e analisar os dados.
O exemplo de código a seguir mostra o uso de
bigframes.pandas
para analisar dados e o bigframes.ml
para criar um modelo de regressão linear de pinguins em um
DataFrame do BigQuery: