Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Utilizzare l'agente di Data Engineering in Visual Studio Code

L'agente di data engineering all'interno dell' estensione Google Cloud Data Agent Kit può aiutarti a creare e compilare pipeline di orchestrazione nel tuo ambiente di sviluppo integrato (IDE). Sfruttando Gemini, l'agente di data engineering fornisce un'interfaccia in linguaggio naturale per automatizzare la generazione, la modifica e la gestione di flussi di lavoro di orchestrazione complessi. Google Cloud

L'estensione Data Agent Kit è supportata in VS Code.

L'agente di data engineering supporta le seguenti attività comuni di data engineering:

Crea pipeline di orchestrazione: genera una nuova pipeline in uno spazio di lavoro vuoto o aggiungi pipeline aggiuntive ai progetti esistenti.
Modifica la struttura della pipeline: utilizza il linguaggio naturale per aggiungere, rimuovere o aggiornare le singole azioni all'interno di una pipeline di orchestrazione.
Gestisci i metadati di esecuzione: modifica i nomi delle pipeline e aggiorna le pianificazioni di esecuzione , ad esempio da esecuzioni manuali a giornaliere.
Risolvi i problemi relativi alle esecuzioni delle pipeline: identifica in modo proattivo la causa principale delle esecuzioni delle pipeline non riuscite e applica le correzioni suggerite dall'agente.

Prima di iniziare

Prima di utilizzare l'agente di data engineering nel tuo IDE, esegui i passaggi descritti in questa sezione.

Installa l'estensione Data Agent Kit per Visual Studio Code. L'agente di data engineering è incluso nell'estensione Data Agent Kit.
Abilita l'API Gemini Data Analytics e l'API Dataform.

Abilita le API
Installa la versione 563.0.0 o successive di Google Cloud SDK.
Installa i comandi gcloud beta.
Configura un ambiente in Managed Service for Apache Airflow. Utilizza la configurazione dell'ambiente Managed Service for Apache Airflow predefinita. Poi, nelle impostazioni Scheduler dell'estensione Data Agent Kit, inserisci il nome dell'ambiente Managed Service for Apache Airflow, l'ID del Google Cloud progetto in cui è ospitato l'ambiente e la regione in cui si trova l'ambiente.

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per interagire con l'agente di data engineering e i relativi servizi sottostanti, chiedi all'amministratore di concederti i seguenti ruoli IAM nel progetto:

Gemini Data Analytics Stateless Chat User (roles/geminidataanalytics.dataAgentStatelessUser)
Editor di codice Dataform (roles/dataform.codeEditor)
Utente job BigQuery (roles/bigquery.jobUser)
Per elencare gli ambienti e gestire i DAG di Apache Airflow: Utente Composer (roles/composer.user)
Per eseguire il deployment della pipeline di orchestrazione o aggiornarla utilizzando un account di servizio dell'ambiente Managed Airflow designato: Utente service account (roles/iam.serviceAccountUser)

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

Best practice

Tieni presente che l'agente segue un loop in più passaggi. L'agente genera innanzitutto un piano per la tua approvazione. Poi, l'agente esegue l'azione (ad esempio, la scrittura del codice). Infine, l'agente verifica i risultati utilizzando esecuzioni dry run o test.
Il rendimento dell'agente dipende dai file aperti nello spazio di lavoro. Utilizza la sintassi @file o apri i file SQLX pertinenti per fornire all'agente il contesto necessario per creare la logica di orchestrazione.

Crea una pipeline di orchestrazione

Per creare una pipeline di orchestrazione in uno spazio di lavoro vuoto o aggiungere una pipeline di orchestrazione aggiuntiva a uno spazio di lavoro esistente:

Apri l'IDE con l'estensione Data Agent Kit installata.
Apri il riquadro Chiedi all'agente.
Inserisci un prompt in linguaggio naturale per generare una pipeline di orchestrazione. Ad esempio:
```
 Create an orchestration pipeline that unifies my Google Ads and YouTube Ads
 data into a single marketing table.
```
Dopo aver inserito un prompt, fai clic su Invia.
Esamina la struttura della pipeline generata e applica le modifiche.

Aggiorna una pianificazione della pipeline

Per modificare il nome della pipeline di orchestrazione o aggiornare la pianificazione di esecuzione (ad esempio, da manuale a giornaliera):

Apri l'IDE con l'estensione Data Agent Kit installata.
Vai alla configurazione della pipeline di orchestrazione esistente.
Apri il riquadro Chiedi all'agente.
Inserisci un prompt in linguaggio naturale per aggiornare la pianificazione della pipeline. Ad esempio:
```
Update the execution schedule for this pipeline to run daily at 2 AM.
```
L'agente aggiorna la configurazione sottostante, ad esempio le impostazioni del DAG di Apache Airflow.
Esamina e salva la pianificazione della pipeline aggiornata.

Modifica le azioni della pipeline

Per aggiungere o eliminare singole azioni nella pipeline di orchestrazione:

Apri l'IDE con l'estensione Data Agent Kit installata.
Identifica l'azione della pipeline che vuoi aggiungere o eliminare.
Apri il riquadro Chiedi all'agente.
Inserisci un prompt in linguaggio naturale per modificare le azioni della pipeline. Ad esempio:
```
Add a new action to the pipeline that runs the daily_sales_aggregation table
task.
```
Esamina e salva la definizione della pipeline aggiornata.

Risoluzione dei problemi

Se riscontri errori durante la generazione della pipeline di orchestrazione, assicurati di aver completato tutti i prerequisiti necessari per eseguire l'agente di data engineering. Per ulteriori informazioni, consulta Prima di iniziare.

Per risolvere i problemi relativi a un'esecuzione non riuscita di una pipeline di orchestrazione o di dati:

Apri l'IDE con l'estensione Data Agent Kit installata.
Nella pipeline o nello spazio di lavoro di sviluppo, fai clic sulla scheda Esecuzioni.
Nell'elenco delle esecuzioni, trova l'esecuzione della pipeline di dati non riuscita. Puoi identificare le esecuzioni non riuscite nella colonna Stato dell'esecuzione.
Passa il mouse sopra l'icona di errore, poi fai clic su Analizza. L'agente di data engineering analizza i log e identifica le cause principali, come la deriva dello schema o le mancate corrispondenze dei tipi di dati.
Nel riquadro Chiedi all'agente, esamina la correzione suggerita.
Per risolvere il problema, inserisci un prompt come Apply the suggested fix to the pipeline. In alternativa, puoi aggiornare manualmente il codice SQLX in base all'analisi dell'agente.