A extensão do Google Cloud Data Agent Kit para Visual Studio Code permite usar notebooks para limpeza de dados, engenharia de recursos e análise detalhada.Há três tipos de notebooks para escolher.
- Notebooks do BigQuery DataFrames. São notebooks Python que permitem processar conjuntos de dados enormes no BigQuery usando APIs conhecidas do pandas e do scikit-learn. Eles oferecem suporte à gravação de código em GoogleSQL para BigQuery, além do Python.
Notebooks gerenciados do Apache Spark com kernel local. São notebooks Python que permitem criar e executar jobs no Serviço Gerenciado para Apache Spark usando a biblioteca Spark Connect.
Notebooks gerenciados do Apache Spark com kernel remoto. Esses notebooks permitem executar o notebook em um kernel remoto que é executado totalmente no Serviço Gerenciado para Apache Spark. Nenhuma parte do código é executada localmente no computador. Além do PySpark, é possível escrever o código em Spark SQL com a ajuda do comando mágico de célula
%%sparksql.
Antes de começar
Para notebooks do BigQuery, a biblioteca bigframes precisa ser instalada no mesmo ambiente virtual Python em que você executa o notebook. Ao criar um novo notebook, a célula de inicialização contém a seguinte linha, que é comentada:
#%pip install --upgrade bigframes
Opcional: se você não tiver a biblioteca
bigframesinstalada no ambiente virtual Python, remova o comentário.Opcional: se você planeja escrever código SQL no notebook, instale
bigquery-magics:
pip install --upgrade bigquery-magics
Funções exigidas
Para receber as permissões necessárias para executar notebooks do BigQuery, peça ao administrador para conceder a você o papel de Usuário do BigQuery Studio
(roles/bigquery.studioUser) no projeto selecionado na extensão.
Para receber as permissões necessárias para notebooks do Serviço Gerenciado para Apache Spark, peça ao administrador para conceder a você os seguintes papéis no projeto:
- Editor do Dataproc
(
roles/dataproc.editor) - Editor
sem servidor do Dataproc
(
roles/dataproc.serverlessEditor)
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações. Também é possível conseguir as permissões necessárias com papéis personalizados ou outros papéis predefinidos.
Transformar os dados
Para dados em uma tabela do BigLake ou do BigQuery, a extensão fornece modelos de notebook para você começar.
Navegar até uma tabela
Navegue até uma tabela do BigQuery ou do BigLake:
- Abra a paleta de comandos pressionando
Ctrl/Cmd-Shift-P. - Expanda o Explorador de catálogo e encontre o BigQuery ou o BigLake.
- Clique com o botão direito do mouse no ID da tabela.
No menu flutuante, escolha Carregar no DataFrame do Spark ou Carregar no DataFrame do BigQuery. Um novo editor mostra informações sobre a tabela.
Também é possível encontrar a tabela usando Pesquisa universal. Clique no ID da tabela para abrir um novo editor, clique na guia Dados e escolha Carregar no DataFrame do Spark ou Carregar no DataFrame do BigQuery.
Inicializar um notebook
Depois de carregar a tabela, um novo notebook Jupyter será aberto em uma guia do editor contendo o código necessário para carregar a tabela no tipo de DataFrame escolhido.
Se você não tiver a biblioteca necessária instalada no ambiente virtual Python, remova a marca de comentário da linha de instalação do pip.
Clique em Selecionar kernel e escolha um kernel Python.
Para notebooks do Spark Gerenciado com kernels remotos, é necessário escolher um kernel remoto do Spark.
Execute a célula clicando em ▷ Executar tudo ou pressionando
Shift+Enterna parte de baixo da célula.Se você receber uma solicitação para instalar o software ausente, clique em Instalar.
A célula cria um DataFrame contendo os dados na tabela selecionada.
Aplicar transformações de dados ao DataFrame
Adicione outras células ao notebook e escreva o código para transformar os dados. Para BigQuery DataFrames, é possível transformar o DataFrame usando a API compatível com pandas fornecida pelo BigQuery DataFrames.
Como alternativa, o BigQuery DataFrames fornece um comando mágico que pode ser usado para transformar um DataFrame usando SQL em um notebook Jupyter. Para transformar os dados usando SQL, siga estas etapas:
Crie e execute uma célula para ativar os comandos mágicos do Jupyter.
%load_ext bigframesCrie uma célula SQL usando os comandos mágicos
%%bqsql.
Salvar os resultados
Use um dos muitos métodos de saída fornecidos pelo tipo de DataFrames para salvar os dados transformados no BigQuery ou no Cloud Storage. Para BigQuery DataFrames, os métodos de saída incluem o seguinte:
Para dados pequenos, é possível exportar para Arrow ou Pandas para maior manipulação e visualização local.
Limpar
Para evitar cobranças na sua Google Cloud conta, exclua os recursos criados que não são mais necessários.