O Agente de Engenharia de Dados na extensão do Data Agent Kit do Google Cloud pode ajudar você a criar e desenvolver pipelines de orquestração no seu ambiente de desenvolvimento integrado (IDE). Ao aproveitar o Gemini para Google Cloud, o Agente de Engenharia de Dados oferece uma interface de linguagem natural para automatizar a geração, modificação e gerenciamento de fluxos de trabalho de orquestração complexos.
A extensão do Data Agent Kit é compatível com o VS Code.
O Agente de Engenharia de Dados oferece suporte às seguintes tarefas comuns de engenharia de dados:
- Criar pipelines de orquestração: gere um novo pipeline em um espaço de trabalho vazio ou adicione outros pipelines a projetos atuais.
- Modificar a estrutura do pipeline: use a linguagem natural para adicionar, remover ou atualizar ações individuais em um pipeline de orquestração.
- Gerenciar metadados de execução: mude os nomes dos pipelines e atualize as programações de execução, por exemplo, de manual para execuções diárias.
- Resolver problemas de execuções de pipeline: identifique proativamente a causa raiz das execuções de pipeline com falha e aplique as correções sugeridas pelo agente.
Antes de começar
Antes de usar o Agente de Engenharia de Dados no seu IDE, siga as etapas desta seção.
- Instale a extensão do Data Agent Kit para o Visual Studio Code. O Agente de Engenharia de Dados está incluído na extensão do Data Agent Kit.
Ative a API Gemini Data Analytics e a API Dataform.
Instale a versão 563.0.0 ou mais recente do SDK Google Cloud.
Configure um ambiente no Serviço Gerenciado para Apache Airflow. Use a configuração de ambiente padrão do Serviço Gerenciado para Apache Airflow. Em seguida, nas configurações do Scheduler da extensão do Data Agent Kit, insira o nome do ambiente do Serviço Gerenciado para Apache Airflow, o ID do Google Cloud projeto em que o ambiente está hospedado e a região em que o ambiente está localizado.
Funções exigidas
Para receber as permissões necessárias para interagir com o Agente de Engenharia de Dados e os serviços subjacentes, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto:
-
Usuário de chat sem estado do Gemini Data Analytics (
roles/geminidataanalytics.dataAgentStatelessUser) -
Editor de código do Dataform (
roles/dataform.codeEditor) -
Usuário de jobs do BigQuery (
roles/bigquery.jobUser) -
Para listar ambientes e gerenciar DAGs do Apache Airflow:
Usuário do Composer (
roles/composer.user) -
Para implantar o pipeline de orquestração ou atualizar o pipeline usando uma conta de serviço de ambiente do Airflow gerenciado designada:
Usuário da conta de serviço (
roles/iam.serviceAccountUser)
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias usando personalizados papéis ou outros predefinidos papéis.
Práticas recomendadas
- Entenda que o agente segue um loop de várias etapas. Primeiro, ele gera um plano para sua aprovação. Em seguida, o agente executa a ação (por exemplo, escrever código). Por fim, o agente verifica os resultados usando execuções ou testes.
- A performance do agente depende dos arquivos abertos no seu espaço de trabalho. Use a sintaxe
@fileou abra arquivos SQLX relevantes para dar ao agente o contexto necessário para criar a lógica de orquestração.
Criar um pipeline de orquestração
Para criar um pipeline de orquestração em um espaço de trabalho vazio ou adicionar outro pipeline de orquestração a um espaço de trabalho atual, faça o seguinte:
- Abra o IDE com a extensão do Data Agent Kit instalada.
- Abra o painel Ask Agent.
Insira um comando em linguagem natural para gerar um pipeline de orquestração. Exemplo:
Create an orchestration pipeline that unifies my Google Ads and YouTube Ads data into a single marketing table.Depois de inserir um comando, clique em Enviar.
Revise a estrutura do pipeline gerado e aplique as mudanças.
Atualizar uma programação de pipeline
Para mudar o nome do pipeline de orquestração ou atualizar a programação de execução (por exemplo, de manual para diário), faça o seguinte:
- Abra o IDE com a extensão do Data Agent Kit instalada.
- Navegue até a configuração do pipeline de orquestração.
- Abra o painel Ask Agent.
Insira um comando em linguagem natural para atualizar a programação do pipeline. Exemplo:
Update the execution schedule for this pipeline to run daily at 2 AM.O agente atualiza a configuração subjacente, por exemplo, as configurações do DAG do Apache Airflow.
Revise e salve a programação do pipeline atualizada.
Modificar ações de pipeline
Para adicionar ou excluir ações individuais no pipeline de orquestração, faça o seguinte:
- Abra o IDE com a extensão do Data Agent Kit instalada.
- Identifique a ação do pipeline que você quer adicionar ou excluir.
- Abra o painel Ask Agent.
Insira um comando em linguagem natural para modificar as ações do pipeline. Exemplo:
Add a new action to the pipeline that runs the daily_sales_aggregation table task.Revise e salve a definição de pipeline atualizada.
Resolver problemas
Se você encontrar erros durante a geração do pipeline de orquestração, verifique se concluiu todos os pré-requisitos necessários para executar o Agente de Engenharia de Dados. Para mais informações, consulte Antes de começar.
Para resolver problemas de uma orquestração com falha ou execução de pipeline de dados, faça o seguinte:
- Abra o IDE com a extensão do Data Agent Kit instalada.
- No pipeline ou espaço de trabalho de desenvolvimento, clique na guia Execuções.
- Na lista de execuções, encontre a execução do pipeline de dados com falha. É possível identificar execuções com falha na coluna Status da execução.
- Passe o cursor sobre o ícone de falha e clique em Investigar. O Agente de Engenharia de Dados analisa os registros e identifica as causas raiz, como desvio de esquema ou incompatibilidades de tipo de dados.
- No painel Ask Agent, revise a correção sugerida.
- Para resolver o problema, insira um comando como
Apply the suggested fix to the pipeline. Como alternativa, você pode atualizar manualmente o código SQLX com base na análise do agente.
A seguir
- Saiba como usar o Agente de Engenharia de Dados para criar e modificar pipelines de orquestração usando comandos da Google Cloud CLI.
- Saiba como usar o Agente de Engenharia de Dados para criar e modificar pipelines de dados no Google Cloud console.