Usar o agente de engenharia de dados para criar e modificar pipelines de dados
Com o agente de engenharia de dados, é possível criar, modificar e resolver problemas em pipelines de dados no BigQuery usando comandos de linguagem natural. O agente de engenharia de dados oferece os seguintes recursos para simplificar seus fluxos de trabalho de engenharia de dados e ingerir dados no BigQuery:
- Integração do Dataform: o agente gera e organiza o código do pipeline de dados diretamente nos repositórios e espaços de trabalho do Dataform.
- Geração de planos: o agente pode resumir o raciocínio e gerar um plano que permite revisar e verificar o plano do agente antes de continuar.
- Validação de código: o agente valida e corrige automaticamente erros de compilação de qualquer código gerado para garantir que o pipeline de dados esteja funcional.
- Preparação automática de dados: o agente realiza a preparação de dados e transforma dados brutos em tabelas estruturadas sem intervenção manual.
- Instruções personalizadas: o agente é compatível com instruções personalizadas que permitem definir regras específicas e diretrizes reutilizáveis em linguagem natural.
- Contexto externo: o agente está integrado ao Catálogo de conhecimento para mais contexto
- Controle de pipeline: é possível revisar e personalizar os planos de agente gerados antes da execução de qualquer ação.
- Otimização: o agente pode otimizar a performance no seu pipeline de dados
- Solução de problemas e reparo: o agente pode solucionar falhas de pipeline e corrigir o código.
Para mais exemplos de comandos que podem ser usados com o Data Engineering Agent, consulte Exemplos de comandos.
Limitações
O agente de engenharia de dados tem as seguintes limitações:
- O Agente de Engenharia de Dados não é compatível com comandos em linguagem natural para os seguintes tipos de arquivo:
- Notebooks
- Preparação de dados
- JavaScript em qualquer SQLX
- O agente de engenharia de dados não pode executar pipelines. Você precisa revisar e executar ou programar pipelines.
- O agente de engenharia de dados não pode validar SQL que depende de recursos intermediários inexistentes sem a invocação completa do pipeline (acionada pelo usuário).
- O agente de engenharia de dados não pode pesquisar links da Web ou URLs fornecidos por instruções ou comandos diretos.
- Ao importar arquivos em um arquivo de instruções do agente, a sintaxe de importação
@aceita apenas caminhos que começam com./,/ou uma letra. - O recurso prévia dos dados só é compatível com tabelas, declarações ou consultas em que a flag
hasOutputestá definida comotrue. - O agente de engenharia de dados está sujeito às limitações gerais da tecnologia de IA.
Como o agente de engenharia de dados usa seus dados
Para gerar respostas de maior qualidade, o agente de engenharia de dados pode recuperar mais dados e metadados do BigQuery e do Knowledge Catalog, incluindo linhas de amostra de tabelas do BigQuery e perfis de verificação de dados gerados no Knowledge Catalog. O agente não usa esses dados para treinamento. Ele usa apenas como contexto adicional durante as conversas para informar as respostas.
Onde o agente de engenharia de dados processa seus dados
Para mais informações sobre os locais em que o agente de engenharia de dados processa seus dados, consulte Onde o Gemini no BigQuery processa seus dados.
Antes de começar
Antes de usar o agente de engenharia de dados, siga as etapas desta seção.
Ativar o Gemini no BigQuery
Verifique se o Gemini no BigQuery está ativado para seu projetoGoogle Cloud . Para mais informações, consulte Configurar o Gemini no BigQuery.
Ative as APIs necessárias
Console
Ative as seguintes APIs no console do Google Cloud para o projeto Google Cloudque você usa com a API Análises de conversação.
Ativar a API Gemini Data Analytics
gcloud
Para ativar a API Gemini Data Analytics, a API Gemini para Google Cloud
e a API BigQuery, use a Google Cloud CLI
e execute os seguintes comandos gcloud
services enable:
gcloud services enable geminidataanalytics.googleapis.com --project=PROJECT_ID gcloud services enable cloudaicompanion.googleapis.com --project=PROJECT_ID gcloud services enable bigquery.googleapis.com --project=PROJECT_ID
Substitua PROJECT_ID pelo ID do projeto Google Cloud .
Funções exigidas
Para receber a permissão necessária para usar o agente de engenharia de dados, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto:
-
Editor de código do Dataform (
roles/dataform.codeEditor) -
Usuário de jobs do BigQuery (
roles/bigquery.jobuser) -
Usuário de chat sem estado do Gemini Data Analytics (
roles/geminidataanalytics.dataAgentStatelessUser)
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Esse papel predefinido contém a permissão
geminidataanalytics.locations.useDataEngineeringAgent,
que é necessária para
usar o agente de engenharia de dados.
Também é possível receber essa permissão com papéis personalizados ou outros papéis predefinidos.
Pré-requisitos de integração do Catálogo de Conhecimento
Para receber a permissão necessária
para integrar o agente de engenharia de dados ao Knowledge Catalog,
peça ao administrador para conceder a você o papel do IAM de
Editor do catálogo do Dataplex (roles/dataplex.catalogEditor)
no projeto.
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Esse papel predefinido contém a permissão
geminidataanalytics.locations.useDataEngineeringAgent,
que é necessária para
integrar o agente de engenharia de dados ao catálogo do Knowledge.
Também é possível receber essa permissão com papéis personalizados ou outros papéis predefinidos.
Também é necessário ativar a API Knowledge Catalog.
Criptografar dados com chaves do Cloud Key Management Service
É possível criptografar dados no nível do conjunto de dados ou do projeto com as chaves padrão do Cloud Key Management Service gerenciadas pelo cliente no BigQuery. Para mais informações, consulte Definir uma chave padrão de conjunto de dados e Definir uma chave padrão de projeto.
É possível criptografar o código do pipeline no nível do projeto definindo uma chave padrão do Dataform Cloud Key Management Service.
Configurar perímetros do VPC Service Controls
Se você usa o VPC Service Controls, configure o perímetro para proteger o Dataform, o BigQuery e a API Análises de conversação. Para mais informações, consulte Dataform, BigQuery e API de Análises de conversação.
Gerar um pipeline de dados com o agente de engenharia de dados
Para usar o agente de engenharia de dados no BigQuery, selecione uma das seguintes opções:
Pipelines do BigQuery
Para usar o agente de engenharia de dados na interface de pipelines do BigQuery, faça o seguinte:
Acessar a página do BigQuery.
No editor de consultas, clique em arrow_drop_down Criar novo > Pipeline.
Selecione uma opção para as credenciais de execução e clique em Começar. Essas credenciais não são usadas pelo agente, mas são necessárias para executar o pipeline de dados gerado.
Clique em Testar a experiência do agente para o pipeline de dados.
No campo Perguntar ao agente, insira um comando em linguagem natural para gerar um pipeline de dados. Por exemplo:
Create dimension tables for a taxi trips star schema from new_york_taxi_trips.tlc_green_trips_2022. Generate surrogate keys and all the descriptive attributes.Depois de inserir um comando, clique em Enviar.
O agente de engenharia de dados gera um pipeline de dados com base no seu comando.
O agente de engenharia de dados gera um rascunho proposto de um pipeline de dados. Clique em um nó de pipeline para analisar a consulta SQLX gerada. Para aplicar o pipeline de dados sugerido pelo agente, clique em Aplicar.
Dataform
Para usar o agente de engenharia de dados no Dataform, faça o seguinte:
Acesse Dataform.
Selecione um repositório.
Selecione ou crie um espaço de trabalho de desenvolvimento.
No espaço de trabalho, clique em Perguntar ao agente.
No comando Perguntar ao agente que aparece, insira um comando em linguagem natural para gerar um pipeline de dados. Por exemplo:
Create dimension tables for a taxi trips star schema from new_york_taxi_trips.tlc_green_trips_2022. Generate surrogate keys and all the descriptive attributes.Depois de inserir um comando, clique em Enviar.
Depois que o comando é enviado, o agente de engenharia de dados gera um pipeline de dados e modifica os arquivos SQLX do Dataform com base no comando. O agente aplica essas mudanças diretamente aos arquivos do seu espaço de trabalho.
Editar um pipeline de dados
Para editar seu pipeline de dados, clique em Perguntar ao agente e insira um comando que sugira uma mudança no pipeline.
Revise as mudanças propostas pelo agente de engenharia de dados e clique em Aplicar.
Também é possível editar uma consulta SQLX manualmente. Para isso, selecione um nó de pipeline e clique em Abrir.
Analisar um pipeline de dados
Clique em um nó de pipeline em um pipeline de dados gerado pelo agente de engenharia de dados para analisá-lo.
- A guia Configuração mostra a consulta SQLX gerada associada ao nó.
- A guia Prévia dos dados mostra a tabela de entrada e saída do arquivo. Para conferir uma prévia da transformação de dados usando esse nó, clique em Executar tarefa com ou sem dependências.
Resolver erros de pipeline de dados
Se você encontrar erros durante a geração do pipeline de dados, verifique se concluiu todos os pré-requisitos para executar o agente de engenharia de dados. Para mais informações, consulte Antes de começar.
Executar uma investigação do Gemini Cloud Assist
Para mais informações sobre a solução de problemas do pipeline, use o agente de engenharia de dados para executar uma análise de causa raiz e sugerir recomendações de solução de problemas.
Esse recurso usa investigações do Gemini Cloud Assist (pré-lançamento) e está disponível apenas para usuários com um contrato de suporte Premium. Para mais informações sobre como ativar as investigações do Gemini Cloud Assist, consulte Resolver problemas com as investigações do Gemini Cloud Assist.
Use o agente de engenharia de dados para resolver problemas de erros de pipeline de dados com as seguintes etapas:
- No pipeline ou no espaço de trabalho de desenvolvimento, clique na guia Execuções.
Na lista de execuções, encontre a execução com falha do pipeline de dados. É possível identificar execuções com falha na coluna Status.
Passe o cursor sobre o ícone e clique em Investigar. O agente de engenharia de dados executa uma análise de causa raiz (RCA) na execução do pipeline de dados para encontrar erros.
Depois que a análise é concluída, o Data Engineering Agent gera um relatório na seção Observações e hipóteses. O relatório inclui o seguinte:
- Observações e pontos de dados extraídos dos registros de execução do pipeline de dados.
- Causas prováveis da falha.
- Um conjunto de etapas ou recomendações práticas para resolver o problema identificado.
Com o relatório de solução de problemas do agente de engenharia de dados, é possível implementar as recomendações manualmente. Você também pode instruir o Agente de engenharia de dados a aplicar a correção para você seguindo estas etapas:
- Copie as sugestões no relatório de solução de problemas.
- Volte ao agente de engenharia de dados:
- Se você estiver usando pipelines do BigQuery, acesse a página de pipelines e clique em Perguntar ao agente.
- Se você estiver usando o Dataform, clique em Perguntar ao agente.
- Cole as sugestões no comando e instrua o agente de engenharia de dados a fazer as correções diretamente no pipeline de dados.
- Clique em Enviar.
Outros recursos e personalizações do agente
As seções a seguir descrevem outros recursos do agente e métodos para personalizar o agente de engenharia de dados.
Criar instruções para o agente
As instruções do agente são instruções em linguagem natural para o agente de engenharia de dados que permitem armazenar instruções persistentes para que o agente siga um conjunto de regras personalizadas e predefinidas. Use instruções do agente se quiser que os resultados dele sejam consistentes em toda a organização, por exemplo, com convenções de nomenclatura ou para aplicar um guia de estilo.
É possível criar um arquivo de contexto GEMINI.MD como um arquivo de instruções do agente para o Data Engineering Agent. É possível criar arquivos de instruções do agente para usar no seu espaço de trabalho local ou usar os mesmos arquivos em vários pipelines de dados com um repositório externo.
Para criar instruções do agente, faça o seguinte:
- Em Perguntar ao agente, clique em Instruções do pipeline.
- No painel Instruções para o pipeline, clique em Criar arquivo de instruções.
No arquivo
GEMINI.MDque aparece, insira suas instruções em linguagem natural.O exemplo a seguir mostra um arquivo de instruções do agente com várias regras:
1. All event-specific tables MUST be prefixed with `cs_event_`. 2. The primary key for any player activity table is a composite key of `player_id` and `event_timestamp_micros`. 3. Filter out any player actions where `mana_spent` is greater than `max_mana_pool`. This is considered a data anomaly.Clique em Salvar.
Para informações sobre como estruturar melhor os arquivos de instruções do agente, consulte Práticas recomendadas com arquivos de instruções do agente.
Carregar instruções do agente de um repositório externo
Para reutilizar um conjunto de instruções do agente em vários pipelines de dados, vincule um repositório externo:
- Em Perguntar ao agente, clique em Instruções do pipeline.
- Em Repositório externo, selecione Usar instruções de um repositório externo.
- Nos campos fornecidos, especifique um repositório que contenha instruções do agente que você quer usar com seu pipeline de dados.
- Clique em Salvar.
Importar outros arquivos locais como instruções do agente
Também é possível importar outros arquivos de instruções para o agente de engenharia de dados no arquivo GEMINI.md com a sintaxe @file.md. Para mais informações, consulte Processador de importação de memória.
Preparação automática de dados
É possível usar o agente de engenharia de dados para transformar dados brutos e não processados em tabelas estruturadas adequadas para análise de dados. Quando solicitado, o agente primeiro faz uma amostragem de até 1.000.000 de registros de cada tabela padrão ou externa. Em seguida, o agente faz uma análise detalhada dos dados executando consultas de criação de perfil nessa amostra. Depois de gerar transformações de dados, o agente repete esse processo de amostragem e criação de perfil para avaliar a qualidade das transformações. Essas transformações de preparação de dados podem incluir a correção de inconsistências, outliers ou incompatibilidades de tipo. Em seguida, o agente de engenharia de dados cria um plano que descreve as etapas de organização propostas para você revisar e refinar antes que qualquer ação ocorra.
O agente de engenharia de dados também inicia a análise de preparação de dados sempre que você adiciona uma tabela bruta, como uma tabela externa baseada em CSV. É possível analisar o plano de tratamento de dados e ajustá-lo com comandos de conversa.
A criação de perfis e a amostragem de dados usam recursos do BigQuery e estão sujeitas aos preços do BigQuery.
O agente de engenharia de dados é compatível com as seguintes transformações de preparação de dados:
- Limpeza de dados. O agente pode analisar dados brutos e sugerir oportunidades de limpeza, como remover outliers, preencher valores ausentes ou inconsistentes (imputação de dados), corrigir dados duplicados ou padronizar formatos de dados, por exemplo, números de telefone ou endereços.
- Transformações estruturais. Quando um esquema de destino é fornecido, o agente pode remover o aninhamento ou extrair valores dos tipos
JSON,ARRAYouSTRUCT, mesclar várias colunas em uma ou dividir uma coluna em várias. - Detecção e conversão de tipos de dados. O agente pode analisar os dados para determinar os tipos de campo adequados. Em seguida, o agente pode realizar uma conversão de tipo segura para resolver inconsistências de formatação nos campos de data, hora, data/hora ou carimbo de data/hora.
- Conversão de unidades. O agente pode converter automaticamente várias unidades em um campo para uma unidade consistente e padronizar seus dados.
Para garantir a precisão, o agente usa amostras representativas dos seus dados para detectar problemas e validar a lógica de transformação.
Gerar e revisar planos de agentes
O agente de engenharia de dados pode gerar planos que fornecem um resumo e uma visão geral dos objetivos e das etapas necessárias para concluir uma solicitação. Quando você faz solicitações complexas ao agente que exigem muitas mudanças, recomendamos pedir que ele forneça um plano para que você possa analisar as intenções dele antes de tomar qualquer ação. Um plano do agente de engenharia de dados geralmente consiste no seguinte:
- O objetivo do agente para uma solicitação específica
- Uma visão geral das etapas que o agente planeja seguir
- Quaisquer suposições feitas pelo agente
- Arquivos que o agente planeja modificar
- Todas as etapas de otimização ou limpeza que ele planeja realizar
- Um plano de execução por fases
No comando, inclua a necessidade de revisar e aprovar o plano para que o agente não realize nenhuma ação sem sua aprovação explícita. Exemplo:
Create a plan for a pipeline that finds the top N pick up and drop off locations in NYC. I want to review the plan and approve it before you create the pipeline.
O agente também pode gerar um plano automaticamente e pedir sua aprovação. Isso pode acontecer quando um comando é muito ambíguo ou se o agente precisa de mais clareza para atender à sua solicitação.
Para conferir as práticas recomendadas sobre o uso de planos de agente, consulte Práticas recomendadas.
Adicionar contexto do Knowledge Catalog
O agente de engenharia de dados usa o Knowledge Catalog anexando termos do glossário a tabelas e colunas do BigQuery e gerando verificações de perfil de dados. Os termos do glossário podem marcar colunas que exigem mais contexto, como colunas que contêm informações de identificação pessoal (PII) que exigem instruções de tratamento especial, ou identificar colunas correspondentes com nomes diferentes em várias tabelas.
O Knowledge Catalog também usa criação de perfil de dados, que oferece ao agente uma compreensão melhor da distribuição de dados nas colunas da tabela e ajuda a criar declarações de qualidade de dados mais específicas.
Adicionar verificações de qualidade de dados a uma tabela
Quando você pede ao agente para adicionar verificações de qualidade, ele infere verificações razoáveis para a tabela com base no esquema e nas amostras. Você também pode adicionar declarações opinativas como parte do comando. Exemplo:
Add data quality checks for bigquery-public-data.thelook_ecommerce.users.
Otimize os pipelines de dados
Você pode pedir ao agente para otimizar seus pipelines de dados. Ao gerar DDL para novas tabelas, o agente de engenharia de dados recomenda o particionamento e o clustering com base nos padrões de uso de dados analisados. Além disso, o agente pode aplicar automaticamente outras otimizações de pipeline. Exemplos de possíveis otimizações:
- Remoção de colunas para reduzir a leitura de dados do armazenamento e atuar como um fator principal de custo e performance.
- Pushdowns de predicado para filtrar dados no início do plano de execução e reduzir significativamente o volume processado por operações subsequentes.
- Eliminação de subexpressões comuns para melhorar a eficiência, identificando e computando a lógica de transformação compartilhada apenas uma vez, evitando práticas ineficientes, como varredura e junção de tabelas grandes várias vezes.
- Modelos incrementais para processar apenas dados novos ou alterados desde a última execução, em vez de recriar tabelas inteiras a cada execução.
Comandos de amostra
As seções a seguir mostram exemplos de comandos que podem ser usados com o Agente de engenharia de dados para desenvolver seu pipeline de dados.
Agregar dados em uma nova tabela
Com esse comando, o agente de engenharia de dados usa o esquema e as amostras para inferir o agrupamento de dados por chave. Normalmente, o agente configura uma nova configuração de tabela com descrições de tabela e coluna.
Create a daily sales report from the
bigquery-public-data.thelook_ecommerce.order_items table into a
reporting.daily_sales_aggregation table.
Criar uma coluna derivada e adicionar verificações de qualidade de dados à nova tabela
Este comando mostra como adicionar uma tabela e uma coluna e especificar verificações de qualidade para a tabela ao mesmo tempo:
Create a new table named staging.products from
bigquery-public-data.thelook_ecommerce.products and add a calculated column
named gross_profit, which is the retail_price minus the cost.
Also, add the following assertions: ID must not be null and must be unique.
The retail_price must be greater than or equal to the cost. The department
column can only contain 'Men' or 'Women'.
Criar UDFs como parte da definição do modelo
O agente de engenharia de dados também pode configurar a DDL para criar funções definidas pelo usuário (UDFs). Embora o agente não crie a UDF, você pode fazer isso executando o pipeline de dados. Essas UDFs podem ser usadas em definições de modelo no pipeline de dados.
Create a user-defined function (UDF) named get_age_group that takes an integer
age as input and returns a string representing the age group ('Gen Z',
'Millennial', 'Gen X', 'Baby Boomer').
Use this UDF on the age column from the
bigquery-public-data.thelook_ecommerce.users table to create a new view called
reporting.user_age_demographics that includes user_id, age, and the calculated
age_group.
Práticas recomendadas
Para melhorar os resultados ao trabalhar com o agente de engenharia de dados e o Dataform, recomendamos que você faça o seguinte:
Use instruções do agente para solicitações comuns. Se você costuma aplicar determinadas técnicas ou fazer as mesmas correções no agente, use as instruções do agente como um local centralizado para armazenar instruções e solicitações comuns.
Utilize planos de agente.Planos de agente podem ajudar a dividir tarefas complexas de pipeline. Os planos do agente também podem mostrar as proposições e intenções dele. Por isso, recomendamos que você revise esses planos para garantir que o contexto correto seja fornecido ao agente.
Após analisar um plano, você pode editá-lo enviando feedback e sugestões de alterações ao Agente de Engenharia de Dados. Exemplo:
In the plan, ensure that all of the intermediate tables are views.
Em alguns casos, pode ser útil pedir ao agente para gerar um plano que não precise da sua aprovação explícita. O ato de fazer o agente planejar força o Data Engineering Agent a detalhar as ações, o que geralmente leva a melhores resultados. Você pode forçar o agente a gerar e executar um plano automaticamente. Exemplo:
Create a plan for a pipeline that finds the
top N pick up and drop off locations in NYC. You have my explicit pre-approval
to go ahead and execute this plan.
Escreva com clareza. Faça seu pedido de forma clara e evite ser vago. Sempre que possível, forneça fontes de dados de origem e destino ao fazer solicitações, como mostrado no exemplo a seguir:
Extract data from the sales.customers table in the us_west_1 region, and load
it into the reporting.dim_customers table in BigQuery. Match the schema of the
destination table.
Faça solicitações diretas e específicas. Faça uma pergunta por vez e mantenha os comandos concisos. Para comandos com mais de uma pergunta, liste cada parte distinta da pergunta para melhorar a clareza, como mostrado no exemplo a seguir:
1. Create a new table named staging.events_cleaned. Use raw.events as the
source. This new table should filter out any records where the user_agent
matches the pattern '%bot%'. All original columns should be included.
2. Next, create a table named analytics.user_sessions. Use
staging.events_cleaned as the source. This table should calculate the
duration for each session by grouping by session_id and finding the
difference between the MAX(event_timestamp) and MIN(event_timestamp).
Dê instruções explícitas e enfatize os termos-chave. Você pode enfatizar termos ou conceitos-chave nos comandos e rotular determinados requisitos como importantes, conforme mostrado no exemplo a seguir:
When creating the staging.customers table, it is *VERY IMPORTANT* that you
transform the email column from the source table bronze.raw_customers.
Coalesce any NULL values in the email column to an empty string ''.
Especificar a ordem das operações. Para tarefas ordenadas, estruture o comando em listas, em que os itens listados são divididos em etapas pequenas e focadas, conforme mostrado no exemplo a seguir:
Create a pipeline with the following steps:
1. Extract data from the ecomm.orders table.
2. Join the extracted data with the marts.customers table on customer_id.
3. Load the final result into the reporting.customer_orders table.
Refine e itere. Teste frases e abordagens diferentes para saber produz os melhores resultados. Se o agente gerar SQL inválido ou outros erros, dê exemplos ou documentação pública para orientá-lo.
The previous query was incorrect because it removed the timestamp. Please
correct the SQL. Use the TIMESTAMP_TRUNC function to truncate the
event_timestamp to the nearest hour, instead of casting it as a DATE. For
example: TIMESTAMP_TRUNC(event_timestamp, HOUR).
Práticas recomendadas com arquivos de instruções do agente
Crie arquivos de instruções do agente para personalizar o agente de engenharia de dados de acordo com suas necessidades. Ao usar instruções do agente, recomendamos o seguinte:
- Todos os caminhos de arquivo no Dataform são relativos à raiz do repositório. Use caminhos relativos para qualquer sintaxe
@file.mdpara importar corretamente instruções paraGEMINI.md. - Os arquivos importados em
GEMINI.mdpodem conter outras importações, o que cria uma estrutura aninhada. Para evitar recursão infinita,GEMINI.mdtem uma profundidade máxima de importação de cinco níveis. - Para compartilhar instruções entre pipelines de dados, armazene-as em um repositório central do Dataform e vincule-as ao repositório de trabalho do Dataform. Você pode usar instruções locais para substituir regras centrais de comportamento específico do pipeline.
- Para garantir a consistência no seu projeto, você pode vincular arquivos de convenção de nomenclatura ou guias de estilo e instruir o agente a seguir essas diretrizes ao trabalhar com seus pipelines de dados.
- Você pode sugerir camadas de dados no arquivo de instruções para agrupar diferentes tipos de dados.
- Usar cabeçalhos e listas no arquivo de instruções do agente ajuda a organizar e esclarecer as instruções para o agente de engenharia de dados.
- Crie nomes de arquivos significativos e agrupe instruções semelhantes em um arquivo. Organize as regras de forma lógica por categoria, recurso ou funcionalidade com cabeçalhos em Markdown.
- Para evitar instruções conflitantes, defina claramente as condições específicas em que cada instrução se aplica.
- Itere e refine seus comandos e fluxo de trabalho. O comportamento do agente muda com o tempo, com lançamentos de agentes e upgrades de modelos. Por isso, recomendamos iterar suas regras com diferentes comandos para identificar áreas que podem precisar de melhorias. Mantenha o arquivo de regras sincronizado com as mudanças no pipeline de dados.
O exemplo a seguir mostra um arquivo de instruções do agente chamado GEMINI.md que
utiliza nossas práticas recomendadas para o uso eficiente do agente de engenharia de dados:
### Naming Conventions
* Datasets: [business_domain]_[use_case] (e.g., ecommerce_sales)
* Tables:
- Raw/External: raw_[source_name]
- Staging: stg_[business_entity]
- Dimension: dim_[dimension_name]
- Fact: fct_[fact_name]
* Dataform Folders:
- sources
- staging
- marts
- dataProducts
* Views: vw_[view_name]
* Columns: snake_case (e.g., order_id, customer_name)
## Cloud Storage data load
* When ingesting data from Cloud Storage, create external tables.
## Null handling
* Filter out null id values
## String normalization
* Standardize string columns by converting to lower case
## Data Cleaning Guidelines
@./generic_cleaning.md