Transformar dados

A extensão do Google Cloud Data Agent Kit para Antigravity permite usar notebooks para limpeza de dados, engenharia de recursos e análise detalhada.Há três tipos de notebooks para escolher.

  • Notebooks do BigQuery DataFrames. São notebooks Python que permitem processar grandes conjuntos de dados no BigQuery usando APIs conhecidas do pandas e do scikit-learn. Eles oferecem suporte à escrita de código em GoogleSQL para BigQuery e Python.
  • Notebooks gerenciados do Apache Spark com kernel local. São notebooks Python que permitem criar e executar jobs no Serviço Gerenciado para Apache Spark usando a biblioteca Spark Connect.

  • Notebooks gerenciados do Apache Spark com kernel remoto. Com eles, é possível executar o notebook em um kernel remoto que é executado totalmente no Serviço Gerenciado para Apache Spark. Nenhuma parte do seu código é executada localmente no seu computador. Além do PySpark, é possível escrever seu código em Spark SQL com a ajuda do comando mágico de célula %%sparksql.

Antes de começar

Para notebooks do BigQuery, a biblioteca bigframes precisa ser instalada no mesmo ambiente virtual Python em que você executa o notebook. Ao criar um notebook, a célula de inicialização contém a seguinte linha, que está comentada:

#%pip install --upgrade bigframes
  1. Opcional: se você não tiver a biblioteca bigframes instalada no ambiente virtual do Python, remova o comentário.

  2. Opcional: se você planeja escrever código SQL no notebook, instale bigquery-magics:

pip install --upgrade bigquery-magics

Funções exigidas

Para receber as permissões necessárias para executar notebooks do BigQuery, peça ao administrador para conceder a você o papel de Usuário do BigQuery Studio (roles/bigquery.studioUser) no projeto selecionado na extensão.

Para receber as permissões necessárias para notebooks do Serviço Gerenciado para Apache Spark, peça ao administrador para conceder a você os seguintes papéis no projeto:

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações. Também é possível conseguir as permissões necessárias com papéis personalizados ou outros papéis predefinidos.

Transformar os dados

Para dados em uma tabela do BigLake ou do BigQuery, a extensão fornece modelos de notebook para você começar.

Navegue até uma tabela do BigQuery ou do BigLake:

  1. Abra a paleta de comandos pressionando Ctrl/Cmd-Shift-P.
  2. Expanda o explorador de catálogo e encontre seu BigQuery ou BigLake.
  3. Clique com o botão direito do mouse no ID da tabela.
  4. No menu flutuante, escolha Carregar no DataFrame do Spark ou Carregar no DataFrame do BigQuery. Um novo editor mostra informações sobre a tabela.

    Você também pode encontrar a tabela usando a Pesquisa universal. Clique no ID da tabela para abrir um novo editor, clique na guia Dados e escolha Carregar no DataFrame do Spark ou Carregar no DataFrame do BigQuery.

Inicializar um notebook

Depois de carregar a tabela, um novo notebook do Jupyter será aberto em uma guia do editor com o código necessário para carregar a tabela no tipo de dataframe escolhido.

  1. Se você não tiver a biblioteca necessária instalada no ambiente virtual do Python, remova a marca de comentário da linha "pip install".

  2. Clique em Selecionar kernel e escolha um kernel do Python.

    Para notebooks do Spark Gerenciado com kernels remotos, escolha um kernel remoto do Spark.

  3. Execute a célula clicando em ▷ Executar tudo ou pressionando Shift+Enter na parte de baixo da célula.

  4. Se for solicitado que você instale o software ausente, clique em Instalar.

A célula cria um DataFrame com os dados da tabela selecionada.

Aplicar transformações de dados ao DataFrame

Adicione outras células ao notebook e escreva o código para transformar seus dados. Para o BigQuery DataFrames, é possível transformar o DataFrame usando a API compatível com pandas fornecida pelo BigQuery DataFrames.

Como alternativa, os BigQuery DataFrames oferecem um comando mágico que pode ser usado para transformar um DataFrame usando SQL em um notebook Jupyter. Para transformar seus dados usando SQL, siga estas etapas:

  1. Crie e execute uma célula para ativar os comandos mágicos do Jupyter.

    %load_ext bigframes

  2. Crie uma célula SQL usando os comandos mágicos %%bqsql.

Salvar os resultados

Use um dos vários métodos de saída fornecidos pelo tipo de DataFrame para salvar os dados transformados no BigQuery ou no Cloud Storage. Para BigQuery DataFrames, os métodos de saída incluem o seguinte:

Para dados pequenos, é possível exportar para Arrow ou Pandas para mais manipulação e visualização locais.

Limpar

Para evitar cobranças na sua conta do Google Cloud , exclua os recursos que você criou, mas não precisa mais.

A seguir