Criar e executar um notebook usando a galeria de notebooks

Comece a analisar dados usando a galeria de notebooks no BigQuery Studio.

Antes de começar

  1. Faça login na sua conta do Google Cloud . Se você começou a usar o Google Cloud, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.

  6. Ative a API BigQuery.

    Funções necessárias para ativar APIs

    Para ativar as APIs, é necessário ter o papel do IAM de administrador de uso do serviço (roles/serviceusage.serviceUsageAdmin), que contém a permissão serviceusage.services.enable. Saiba como conceder papéis.

    Ativar a API

    Para novos projetos, a API BigQuery é ativada automaticamente.

  7. Opcional: ative o faturamento do projeto. Se você não quiser ativar o faturamento ou informar um cartão de crédito, as etapas deste documento ainda funcionarão. O BigQuery fornece um sandbox para executar as etapas. Para mais informações, consulte Ativar o sandbox do BigQuery.

Funções exigidas

Para receber as permissões necessárias para criar um notebook de execução, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto:

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias usando papéis personalizados ou outros papéis predefinidos.

Se você não conhece os notebooks no BigQuery, consulte as permissões necessárias na página "Criar notebooks".

A galeria de notebooks é um hub central para descobrir e usar modelos de notebook predefinidos. Com eles, é possível realizar tarefas comuns, como preparação, análise e visualização de dados. Os modelos de notebook também ajudam a explorar os recursos do BigQuery Studio, gerenciar fluxos de trabalho e promover práticas recomendadas.

É possível usar modelos da galeria de notebooks para simplificar todo o fluxo de trabalho de intenção para insights em cada etapa do ciclo de vida dos dados, desde a ingestão e a análise até a análise avançada e o BigQuery ML.

A galeria de notebooks oferece modelos para todos os níveis de habilidade. A galeria inclui modelos fundamentais para SQL, Python, Apache Spark e DataFrames. Você também pode explorar temas como IA generativa e análise de dados multimodais no BigQuery.

Para mais informações sobre como usar modelos da galeria de notebooks, consulte Criar um notebook usando a galeria de notebooks.

O exemplo a seguir usa o modelo "Introdução aos notebooks no BigQuery Studio". Este notebook mostra como realizar estas tarefas:

  • Consultar dados: execute consultas usando células SQL.
  • Visualizar resultados de consultas: crie visualizações sem código usando células de visualização.
  • Limpar e transformar dados: classifique, remova duplicidades e filtre seus dados usando a API BigQuery DataFrames (pandas).
  • Executar previsões de IA: gere previsões usando a (função AI.FORECAST) no BigQuery DataFrames. A função AI.FORECAST usa o modelo de fundação TimesFM para gerar previsões diretamente de um conjunto de dados sem precisar de treinamento de modelo.
  • Gerar gráficos de dados: use as bibliotecas de visualização integradas do Python. Você vai criar um gráfico com os dados usando a biblioteca de visualização de BigQuery DataFrames, com tecnologia Matplotlib e Pandas.

Para usar o notebook, abra o modelo, converta-o em um notebook executável, conecte-se ao ambiente de execução do notebook e execute-o.

Abra o modelo e converta em um notebook executável

Antes de usar um notebook criado com base em um modelo da galeria de notebooks, é necessário converter o modelo em um notebook executável.

Para abrir o modelo Introdução aos notebooks no BigQuery Studio na galeria de notebooks e convertê-lo em um notebook executável, siga estas etapas:

  1. Acesse a página do Studio.

    Acessar Studio

  2. Clique no menu suspenso e escolha Notebook > Todos os modelos.

  3. Ou, na página inicial do BigQuery Studio, clique em Ver galeria de notebooks.

    O link "Ver galeria de notebooks" na página inicial do BigQuery Studio.

  4. Clique no card Introdução aos notebooks no BigQuery Studio ou pesquise na galeria.

  5. Depois que o modelo abrir, clique em Usar este modelo para converter o modelo em um notebook executável.

Conectar ao ambiente de execução padrão

Antes de executar o notebook, é necessário conectá-lo a um ambiente de execução da Vertex AI. Um ambiente de execução é um recurso de computação que executa o código no notebook. O ambiente de execução precisa estar na mesma região que o notebook.

Para mais informações sobre ambientes de execução, consulte Ambientes de execução e modelos de ambiente de execução. Para mais informações sobre como configurar as configurações regionais, consulte Definir a região padrão para recursos de código.

Neste tutorial, você vai usar o ambiente de execução padrão. O padrão é predefinido e requer configuração mínima. Para se conectar ao ambiente de execução padrão, siga estas etapas:

  1. Com o notebook aberto, clique em Conectar.

    Se você ainda não tiver um ambiente de execução ativo, poderá levar vários minutos para se conectar ao ambiente de execução padrão.

  2. Quando o ambiente de execução estiver pronto, você verá uma marca de seleção com gráficos de RAM e disco. Se você passar o cursor sobre os gráficos, vai ver o tipo de tempo de execução e a configuração dele.

    As configurações de configuração do tempo de execução padrão

Executar o notebook

A introdução aos notebooks no BigQuery Studio contém texto, SQL, visualização e células de código. As células que não são de texto podem ser executadas individualmente ou em ordem, da primeira à última.

Neste tutorial, você vai executar as células do notebook individualmente para ver os resultados por etapas. Para executar o notebook:

  1. Na seção Consultar seus dados usando células SQL, passe o cursor sobre a célula SQL e clique em Executar célula.

    O botão "Executar célula" na célula SQL

    Essa célula SQL consulta a tabela bigquery-public-data.epa_historical_air_quality.pm25_frm_daily_summary no conjunto de dados públicos de qualidade do ar histórica e retorna a média diária de PM2,5 (uma métrica comum de qualidade do ar) para São Francisco nos últimos anos.

  2. Veja os resultados. Os resultados da consulta são exibidos em um DataFrame.

    Os resultados da consulta em BigQuery DataFrames

  3. Na seção Visualizar dados, passe o cursor sobre a célula de visualização e clique em Executar célula.

  4. Confira a visualização gerada.

    O gráfico gerado pela célula de visualização

    O resultado mostra um gráfico de série temporal que representa os valores médios diários de PM2,5 no DataFrame df gerado anteriormente. Este gráfico mostra a tendência dos níveis de PM2,5 ao longo do tempo.

  5. Na seção Limpar os dados, passe o cursor sobre a célula de código e clique em Executar célula.

  6. Veja os resultados. Os resultados são mostrados em um DataFrame.

    Os resultados em um BigQuery DataFrames

    O código realiza as ações a seguir:

    • Importe a biblioteca bigframes.pandas.
    • Verifique se o campo date_local é um carimbo de data/hora.
    • Classifique os resultados por data, o que é necessário para a estimativa.
    • Remova as linhas duplicadas.
    • Remova as linhas em que avg_pm25 é null.
    • Filtra os outliers.
    • Mostre os resultados em um BigQuery DataFrames chamado df_cleaned.
  7. Na seção Prever valores usando AI.FORECAST, passe o cursor sobre a célula SQL e clique em Executar célula.

  8. Veja os resultados. Os resultados da consulta são mostrados em um DataFrame.

    Os resultados produzidos pela função "AI.FORECAST"

    Essa célula SQL executa uma consulta que usa a função AI.FORECAST para prever a média diária futura de PM2,5 usando o DataFrame df_cleaned gerado anteriormente.

  9. Na seção Visualizar dados usando Python, passe o cursor sobre a célula de código e clique em Executar célula.

  10. Veja os resultados. Os resultados são exibidos em um gráfico.

    O gráfico gerado pela célula de código Python

    O código Python faz o seguinte:

    • Importe o módulo datetime.
    • Trace os dados históricos primeiro e receba os eixos.
    • Represente os dados previstos nos mesmos eixos.
    • Trace o intervalo de confiança.

    Essa visualização é semelhante à plotagem padrão do Python, mas df_cleaned.plot é um comando do BigQuery DataFrames. O comando recupera apenas os dados necessários (uma amostra) para renderizar o gráfico, não todo o conjunto de dados.

Limpar

Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga as etapas abaixo.

  1. No console Google Cloud , acesse a página Gerenciar recursos.

    Acessar "Gerenciar recursos"

  2. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
  3. Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

Como alternativa, para manter o projeto e excluir os recursos usados neste tutorial, siga estas etapas:

  1. Acesse a página do Studio.

    Acessar Studio

  2. No painel esquerdo, expanda seu projeto e clique em Notebooks.

  3. No notebook que você quer excluir, clique em Abrir ações > Excluir.

  4. Na caixa de diálogo Excluir notebook, clique em Excluir para confirmar.

A seguir

Para executar outros modelos de notebook de exemplo na galeria de notebooks, consulte:

Para saber mais sobre DataFrames, consulte:

Para saber mais sobre as funções de IA generativa e ML no BigQuery, consulte a Visão geral da IA generativa.