O agente de engenharia de dados na extensão Google Cloud Data Agent Kit ajuda a criar e desenvolver pipelines de orquestração no seu ambiente de desenvolvimento integrado (IDE). Ao usar o Gemini para Google Cloud, o Agente de engenharia de dados oferece uma interface de linguagem natural para automatizar a geração, modificação e gerenciamento de fluxos de trabalho de orquestração complexos.
A extensão do Data Agent Kit é compatível com o VS Code.
O agente de engenharia de dados é compatível com as seguintes tarefas comuns de engenharia de dados:
- Criar pipelines de orquestração: gere um novo pipeline em um espaço de trabalho vazio ou adicione mais pipelines a projetos atuais.
- Modificar a estrutura do pipeline: use a linguagem natural para adicionar, remover ou atualizar ações individuais em um pipeline de orquestração.
- Gerenciar metadados de execução: mude os nomes dos pipelines e atualize os cronogramas de execução, por exemplo, de manual para execuções diárias.
- Solucionar problemas de execuções de pipeline: identifique proativamente a causa raiz das execuções de pipeline com falha e aplique as correções sugeridas pelo agente.
Antes de começar
Antes de usar o agente de engenharia de dados no seu ambiente de desenvolvimento integrado (IDE), siga as etapas desta seção.
- Instale a extensão do Data Agent Kit para Visual Studio Code. O agente de engenharia de dados está incluído na extensão do Data Agent Kit.
Ative a API Gemini Data Analytics e a API Dataform.
Instale a versão 563.0.0 ou mais recente do SDK Google Cloud.
Configure um ambiente no Serviço gerenciado para Apache Airflow. Use a configuração padrão do ambiente do Serviço gerenciado para Apache Airflow. Em seguida, nas configurações do Scheduler da extensão do Data Agent Kit, insira o nome do ambiente do Serviço gerenciado para Apache Airflow, o ID do projetoGoogle Cloud em que o ambiente está hospedado e a região em que ele está localizado.
Funções exigidas
Para receber as permissões necessárias para interagir com o agente de engenharia de dados e os serviços dele, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto:
- Usuário de chat sem estado do Gemini Data Analytics (
roles/geminidataanalytics.dataAgentStatelessUser) - Editor de código do Dataform (
roles/dataform.codeEditor) - Usuário de jobs do BigQuery (
roles/bigquery.jobUser) -
Para listar ambientes e gerenciar DAGs do Apache Airflow:
Usuário do Composer (
roles/composer.user) -
Para implantar o pipeline de orquestração ou atualizar o pipeline usando uma conta de serviço designada do ambiente do Airflow Gerenciado:
Usuário da conta de serviço (
roles/iam.serviceAccountUser)
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias usando papéis personalizados ou outros papéis predefinidos.
Práticas recomendadas
- Entenda que o agente segue um loop de várias etapas. O agente primeiro gera um plano para sua aprovação. Em seguida, o agente realiza a ação (por exemplo, escrever código). Por fim, o agente verifica os resultados usando simulações ou testes.
- A performance do agente depende dos arquivos abertos no seu espaço de trabalho. Use a sintaxe
@fileou abra os arquivos SQLX relevantes para dar ao agente o contexto necessário para criar sua lógica de orquestração.
Criar um pipeline de orquestração
Para criar um pipeline de orquestração em um espaço de trabalho vazio ou adicionar um pipeline de orquestração a um espaço de trabalho atual, faça o seguinte:
- Abra seu ambiente de desenvolvimento integrado com a extensão do Data Agent Kit instalada.
- Abra o painel Perguntar ao agente.
Insira um comando em linguagem natural para gerar um pipeline de orquestração. Exemplo:
Create an orchestration pipeline that unifies my Google Ads and YouTube Ads data into a single marketing table.Depois de inserir um comando, clique em Enviar.
Revise a estrutura do pipeline gerado e aplique as mudanças.
Atualizar uma programação de pipeline
Para mudar o nome do pipeline de orquestração ou atualizar a programação de execução (por exemplo, de manual para diária), faça o seguinte:
- Abra seu ambiente de desenvolvimento integrado com a extensão do Data Agent Kit instalada.
- Navegue até a configuração do pipeline de orquestração atual.
- Abra o painel Perguntar ao agente.
Insira um comando em linguagem natural para atualizar a programação do pipeline. Exemplo:
Update the execution schedule for this pipeline to run daily at 2 AM.O agente atualiza a configuração subjacente, por exemplo, as configurações de DAG do Apache Airflow.
Revise e salve a programação atualizada do pipeline.
Modificar ações de pipeline
Para adicionar ou excluir ações individuais no pipeline de orquestração, faça o seguinte:
- Abra seu ambiente de desenvolvimento integrado com a extensão do Data Agent Kit instalada.
- Identifique a ação de pipeline que você quer adicionar ou excluir.
- Abra o painel Perguntar ao agente.
Insira um comando em linguagem natural para modificar as ações do pipeline. Exemplo:
Add a new action to the pipeline that runs the daily_sales_aggregation table task.Revise e salve a definição atualizada do pipeline.
Resolver problemas
Se você encontrar erros durante a geração do pipeline de orquestração, verifique se concluiu todos os pré-requisitos necessários para executar o agente de engenharia de dados. Para mais informações, consulte Antes de começar.
Para resolver problemas com uma execução de orquestração ou pipeline de dados com falha, faça o seguinte:
- Abra seu ambiente de desenvolvimento integrado com a extensão do Data Agent Kit instalada.
- No pipeline ou espaço de trabalho de desenvolvimento, clique na guia Execuções.
- Na lista de execuções, encontre a execução com falha do pipeline de dados. É possível identificar execuções com falha na coluna Status da execução.
- Passe o cursor sobre o ícone de falha e clique em Investigar. O agente de engenharia de dados analisa os registros e identifica as causas principais, como desvio de esquema ou incompatibilidades de tipo de dados.
- No painel Perguntar ao agente, revise a correção sugerida.
- Para resolver o problema, insira um comando como
Apply the suggested fix to the pipeline. Como alternativa, é possível atualizar manualmente o código SQLX com base na análise do agente.
A seguir
- Saiba como implantar pipelines de orquestração.
- Saiba como criar ambientes de execução que executam pipelines de orquestração.
- Saiba como definir e ajustar manualmente as configurações de pipeline e implantação.
- Saiba como criar e modificar pipelines de orquestração usando comandos da Google Cloud CLI.
- Saiba como usar o agente de engenharia de dados para criar e modificar pipelines de dados no console do Google Cloud .