Utilizzare l'agente Data Engineering in Visual Studio Code

L'agente Data Engineering all'interno dell'estensione Google Cloud Data Agent Kit può aiutarti a creare e compilare pipeline di orchestrazione nel tuo ambiente di sviluppo integrato (IDE). Sfruttando Gemini per Google Cloud, Data Engineering Agent fornisce un'interfaccia in linguaggio naturale per automatizzare la generazione, la modifica e la gestione di flussi di lavoro di orchestrazione complessi.

L'estensione Data Agent Kit è supportata in VS Code.

Data Engineering Agent supporta le seguenti attività comuni di data engineering:

  • Crea pipeline di orchestrazione: genera una nuova pipeline in uno spazio di lavoro vuoto o aggiungi pipeline aggiuntive a progetti esistenti.
  • Modifica della struttura della pipeline: utilizza il linguaggio naturale per aggiungere, rimuovere o aggiornare singole azioni all'interno di una pipeline di orchestrazione.
  • Gestisci i metadati di esecuzione: modifica i nomi delle pipeline e aggiorna le pianificazioni di esecuzione, ad esempio da manuale a giornaliera.
  • Risolvi i problemi relativi alle esecuzioni della pipeline: identifica in modo proattivo la causa principale delle esecuzioni della pipeline non riuscite e applica le correzioni suggerite dall'agente.

Prima di iniziare

Prima di utilizzare Data Engineering Agent nel tuo IDE, esegui i passaggi descritti in questa sezione.

  1. Installa l'estensione Data Agent Kit per Visual Studio Code. Data Engineering Agent è incluso nell'estensione Data Agent Kit.
  2. Abilita l'API Gemini Data Analytics e l'API Dataform.

    Abilita le API

  3. Installa la versione 563.0.0 o successive di Google Cloud SDK.

  4. Installa i comandi gcloud beta.

  5. Configura un ambiente in Managed Service for Apache Airflow. Utilizza la configurazione dell'ambiente Managed Service for Apache Airflow predefinita. Poi, nelle impostazioni dello scheduler dell'estensione Data Agent Kit, inserisci il nome del tuo ambiente Managed Service for Apache Airflow, l'ID del progettoGoogle Cloud in cui è ospitato l'ambiente e la regione in cui si trova l'ambiente.

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per interagire con Data Engineering Agent e i relativi servizi sottostanti, chiedi all'amministratore di concederti i seguenti ruoli IAM sul progetto:

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

Best practice

  • Comprendi che l'agente segue un ciclo in più passaggi. L'agente genera prima un piano per la tua approvazione. Successivamente, l'agente esegue l'azione (ad esempio, scrivere codice). Infine, l'agente verifica i risultati utilizzando dry run o test.
  • Il rendimento dell'agente dipende dai file aperti nello spazio di lavoro. Utilizza la sintassi @file o apri i file SQLX pertinenti per fornire all'agente il contesto necessario per creare la logica di orchestrazione.

Crea una pipeline di orchestrazione

Per creare una pipeline di orchestrazione in uno spazio di lavoro vuoto o aggiungere un'altra pipeline di orchestrazione a uno spazio di lavoro esistente:

  1. Apri l'IDE con l'estensione Data Agent Kit installata.
  2. Apri il riquadro Chiedi all'agente.
  3. Inserisci un prompt in linguaggio naturale per generare una pipeline di orchestrazione. Ad esempio:

     Create an orchestration pipeline that unifies my Google Ads and YouTube Ads
     data into a single marketing table.
    

    Dopo aver inserito un prompt, fai clic su Invia.

  4. Rivedi la struttura della pipeline generata e applica le modifiche.

Aggiorna una pianificazione della pipeline

Per modificare il nome della pipeline di orchestrazione o aggiornare la pianificazione dell'esecuzione (ad esempio, da manuale a giornaliera), segui questi passaggi:

  1. Apri l'IDE con l'estensione Data Agent Kit installata.
  2. Vai alla configurazione della pipeline di orchestrazione esistente.
  3. Apri il riquadro Chiedi all'agente.
  4. Inserisci un prompt in linguaggio naturale per aggiornare la pianificazione della pipeline. Ad esempio:

    Update the execution schedule for this pipeline to run daily at 2 AM.
    

    L'agente aggiorna la configurazione sottostante, ad esempio le impostazioni DAG di Apache Airflow.

  5. Rivedi e salva la pianificazione della pipeline aggiornata.

Modificare le azioni della pipeline

Per aggiungere o eliminare singole azioni nella pipeline di orchestrazione:

  1. Apri l'IDE con l'estensione Data Agent Kit installata.
  2. Identifica l'azione della pipeline che vuoi aggiungere o eliminare.
  3. Apri il riquadro Chiedi all'agente.
  4. Inserisci un prompt in linguaggio naturale per modificare le azioni della pipeline. Ad esempio:

    Add a new action to the pipeline that runs the daily_sales_aggregation table
    task.
    
  5. Rivedi e salva la definizione della pipeline aggiornata.

Risoluzione dei problemi

Se riscontri errori durante la generazione della pipeline di orchestrazione, assicurati di aver completato tutti i prerequisiti necessari per eseguire l'agente Data Engineering. Per ulteriori informazioni, consulta Prima di iniziare.

Per risolvere i problemi relativi a un'esecuzione di orchestrazione o pipeline di dati non riuscita:

  1. Apri l'IDE con l'estensione Data Agent Kit installata.
  2. Nella pipeline o nell'area di lavoro di sviluppo, fai clic sulla scheda Esecuzioni.
  3. Nell'elenco delle esecuzioni, trova l'esecuzione della pipeline di dati non riuscita. Puoi identificare le esecuzioni non riuscite nella colonna Stato dell'esecuzione.
  4. Passa il mouse sopra l'icona di errore, poi fai clic su Esamina. L'agente Data Engineering analizza i log e identifica le cause principali, ad esempio la variazione dello schema o le mancate corrispondenze dei tipi di dati.
  5. Nel riquadro Chiedi all'agente, rivedi la correzione suggerita.
  6. Per risolvere il problema, inserisci un prompt come Apply the suggested fix to the pipeline. In alternativa, puoi aggiornare manualmente il codice SQLX in base all'analisi dell'agente.

Passaggi successivi