Utiliser l'agent Data Engineering dans Visual Studio Code

L'agent Data Engineering de l'extension Google Cloud Data Agent Kit peut vous aider à créer et à générer des pipelines d'orchestration dans votre environnement de développement intégré (IDE). En exploitant Gemini pour Google Cloud, l'agent d'ingénierie des données fournit une interface en langage naturel pour automatiser la génération, la modification et la gestion de workflows d'orchestration complexes.

L'extension Data Agent Kit est compatible avec VS Code.

L'agent Data Engineering est compatible avec les tâches d'ingénierie des données courantes suivantes :

  • Créer des pipelines d'orchestration : générez un pipeline dans un espace de travail vide ou ajoutez des pipelines à des projets existants.
  • Modifier la structure du pipeline : utilisez le langage naturel pour ajouter, supprimer ou mettre à jour des actions individuelles dans un pipeline d'orchestration.
  • Gérer les métadonnées d'exécution : modifiez les noms des pipelines et mettez à jour les plannings d'exécution (par exemple, en passant d'une exécution manuelle à une exécution quotidienne).
  • Résoudre les problèmes d'exécution de pipelines : identifiez de manière proactive la cause première des échecs d'exécution de pipelines et appliquez les correctifs suggérés par l'agent.

Avant de commencer

Avant d'utiliser l'agent Data Engineering dans votre IDE, suivez les étapes décrites dans cette section.

  1. Installez l'extension Data Agent Kit pour Visual Studio Code. Data Engineering Agent est inclus dans l'extension Data Agent Kit.
  2. Activez l'API Gemini Data Analytics et l'API Dataform.

    Activer les API

  3. Installez la version 563.0.0 ou ultérieure du SDK Google Cloud.

  4. Installez les commandes gcloud beta.

  5. Configurez un environnement dans Managed Service pour Apache Airflow. Utilisez la configuration par défaut de l'environnement Managed Service pour Apache Airflow. Ensuite, dans les paramètres Scheduler de l'extension Data Agent Kit, saisissez le nom de votre environnement Managed Service pour Apache Airflow, l'ID du projetGoogle Cloud où l'environnement est hébergé et la région où il se trouve.

Rôles requis

Pour obtenir les autorisations nécessaires pour interagir avec l'agent Data Engineering et ses services sous-jacents, demandez à votre administrateur de vous accorder les rôles IAM suivants sur le projet :

Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.

Bonnes pratiques

  • Comprenez que l'agent suit une boucle à plusieurs étapes. L'agent génère d'abord un plan que vous devez approuver. L'agent effectue ensuite l'action (par exemple, écrire du code). Enfin, l'agent vérifie les résultats à l'aide de simulations ou de tests.
  • Les performances de l'agent dépendent des fichiers ouverts dans votre espace de travail. Utilisez la syntaxe @file ou ouvrez les fichiers SQLX concernés pour fournir à l'agent le contexte nécessaire à la création de votre logique d'orchestration.

Créer un pipeline d'orchestration

Pour créer un pipeline d'orchestration dans un espace de travail vide ou ajouter un pipeline d'orchestration à un espace de travail existant :

  1. Ouvrez votre IDE avec l'extension Data Agent Kit installée.
  2. Ouvrez le panneau Demander à l'agent.
  3. Saisissez un prompt en langage naturel pour générer un pipeline d'orchestration. Exemple :

     Create an orchestration pipeline that unifies my Google Ads and YouTube Ads
     data into a single marketing table.
    

    Une fois votre requête saisie, cliquez sur Envoyer.

  4. Examinez la structure de pipeline générée et appliquez les modifications.

Mettre à jour une programmation de pipeline

Pour modifier le nom du pipeline d'orchestration ou mettre à jour le calendrier d'exécution (par exemple, en passant d'une exécution manuelle à une exécution quotidienne) :

  1. Ouvrez votre IDE avec l'extension Data Agent Kit installée.
  2. Accédez à la configuration de votre pipeline d'orchestration existant.
  3. Ouvrez le panneau Demander à l'agent.
  4. Saisissez un prompt en langage naturel pour modifier la planification du pipeline. Exemple :

    Update the execution schedule for this pipeline to run daily at 2 AM.
    

    L'agent met à jour la configuration sous-jacente, par exemple les paramètres DAG Apache Airflow.

  5. Examinez et enregistrez le calendrier de pipeline mis à jour.

Modifier les actions du pipeline

Pour ajouter ou supprimer des actions individuelles dans votre pipeline d'orchestration, procédez comme suit :

  1. Ouvrez votre IDE avec l'extension Data Agent Kit installée.
  2. Identifiez l'action de pipeline que vous souhaitez ajouter ou supprimer.
  3. Ouvrez le panneau Demander à l'agent.
  4. Saisissez un prompt en langage naturel pour modifier les actions du pipeline. Exemple :

    Add a new action to the pipeline that runs the daily_sales_aggregation table
    task.
    
  5. Vérifiez et enregistrez la définition du pipeline mise à jour.

Résoudre les problèmes

Si vous rencontrez des erreurs lors de la génération du pipeline d'orchestration, assurez-vous d'avoir rempli tous les prérequis nécessaires pour exécuter l'agent Data Engineering. Pour en savoir plus, consultez la section Avant de commencer.

Pour résoudre les problèmes liés à l'échec d'une orchestration ou d'un pipeline de données, procédez comme suit :

  1. Ouvrez votre IDE avec l'extension Data Agent Kit installée.
  2. Dans votre pipeline ou votre espace de travail de développement, cliquez sur l'onglet Exécutions.
  3. Dans la liste des exécutions, recherchez l'exécution du pipeline de données qui a échoué. Vous pouvez identifier les exécutions ayant échoué dans la colonne État de l'exécution.
  4. Pointez sur l'icône d'échec, puis cliquez sur Examiner. L'agent Data Engineering analyse les journaux et identifie les causes premières, telles que la dérive de schéma ou les incompatibilités de types de données.
  5. Dans le panneau Demander à l'agent, examinez la correction suggérée.
  6. Pour résoudre le problème, saisissez une requête telle que Apply the suggested fix to the pipeline. Vous pouvez également mettre à jour manuellement le code SQLX en fonction de l'analyse de l'agent.

Étapes suivantes