Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Transformar dados

A extensão do Google Cloud Data Agent Kit para o IDE do Antigravity permite usar notebooks para limpeza de dados, engenharia de atributos e análise detalhada.Há três tipos de notebooks para escolher.

Notebooks do BigQuery DataFrames. São notebooks Python que permitem processar conjuntos de dados enormes no BigQuery usando APIs conhecidas do pandas e do scikit-learn. Eles oferecem suporte à gravação de código em GoogleSQL para BigQuery, além do Python.
Notebooks gerenciados do Apache Spark com kernel local. São notebooks Python que permitem criar e executar jobs no Serviço Gerenciado para Apache Spark usando a biblioteca Spark Connect.
Notebooks gerenciados do Apache Spark com kernel remoto. Esses notebooks permitem executar o notebook em um kernel remoto que é executado totalmente no Serviço Gerenciado para Apache Spark. Nenhuma parte do código é executada localmente no computador. Além do PySpark, é possível escrever o código em Spark SQL com a ajuda do comando mágico de célula %%sparksql.

Antes de começar

Para notebooks do BigQuery, a biblioteca bigframes precisa ser instalada no mesmo ambiente virtual Python em que você executa o notebook. Ao criar um novo notebook, a célula de inicialização contém a seguinte linha, que é comentada:

#%pip install --upgrade bigframes

Opcional: se você não tiver a biblioteca bigframes instalada no ambiente virtual Python, remova o comentário.
Opcional: se você planeja escrever código SQL no notebook, instale bigquery-magics:

pip install --upgrade bigquery-magics

Funções exigidas

Para receber as permissões necessárias para executar notebooks do BigQuery, peça ao administrador para conceder a você o papel de usuário do BigQuery Studio (roles/bigquery.studioUser) no projeto selecionado na extensão.

Para receber as permissões necessárias para notebooks do Serviço Gerenciado para Apache Spark, peça ao administrador para conceder a você os seguintes papéis no projeto:

Editor do Dataproc (roles/dataproc.editor)
Editor sem servidor do Dataproc (roles/dataproc.serverlessEditor)

Para mais informações sobre como conceder funções, consulte Gerenciar o acesso a projetos, pastas e organizações. Também é possível conseguir as permissões necessárias com papéis personalizados ou outros papéis predefinidos.

Transformar os dados

Para dados em uma tabela do BigLake ou do BigQuery, a extensão fornece modelos de notebook para você começar.

Navegar até a tabela

Navegue até uma tabela do BigQuery ou do BigLake:

Abra a paleta de comandos pressionando Ctrl/Cmd-Shift-P.
Expanda o Explorador de catálogo e encontre o BigQuery ou o BigLake.
Clique com o botão direito do mouse no ID da tabela.
No menu flutuante, escolha Carregar no DataFrame do Spark ou Carregar no DataFrame do BigQuery. Um novo editor mostra informações sobre a tabela.

Também é possível encontrar a tabela usando Pesquisa universal. Clique no ID da tabela para abrir um novo editor, clique na guia Dados e escolha Carregar no DataFrame do Spark ou Carregar no DataFrame do BigQuery.

Inicializar um notebook

Depois de carregar a tabela, um novo notebook do Jupyter será aberto em uma guia do editor contendo o código necessário para carregar a tabela no tipo de DataFrame escolhido.

Se você não tiver a biblioteca necessária instalada no ambiente virtual Python, remova a marca de comentário da linha de instalação do pip.
Clique em Selecionar kernel e escolha um kernel Python.

Para notebooks do Spark Gerenciado com kernels remotos, é necessário escolher um kernel remoto do Spark.
Execute a célula clicando em ▷ Executar tudo ou pressionando Shift+Enter na parte de baixo da célula.
Se você receber uma solicitação para instalar o software ausente, clique em Instalar.

A célula cria um DataFrame contendo os dados na tabela selecionada.

Aplicar transformações de dados ao DataFrame

Adicione outras células ao notebook e escreva o código para transformar os dados. Para BigQuery DataFrames, é possível transformar o DataFrame usando a API compatível com pandas fornecida pelo BigQuery DataFrames.

Como alternativa, o BigQuery DataFrames fornece um comando mágico que pode ser usado para transformar um DataFrame usando SQL em um notebook do Jupyter. Para transformar os dados usando SQL, siga estas etapas:

Crie e execute uma célula para ativar os comandos mágicos do Jupyter.

%load_ext bigframes
Crie uma célula SQL usando os comandos mágicos %%bqsql.

Salvar os resultados

Use um dos muitos métodos de saída fornecidos pelo tipo de DataFrames para salvar os dados transformados no BigQuery ou no Cloud Storage. Para BigQuery DataFrames, os métodos de saída incluem o seguinte:

Para dados pequenos, é possível exportar para Arrow ou Pandas para manipulação e visualização local.

Limpar

Para evitar cobranças na sua Google Cloud conta, exclua os recursos criados que não são mais necessários.