Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Utiliser l'agent Data Engineering dans Visual Studio Code

L'agent d'ingénierie des données de l'extension Google Cloud Data Agent Kit peut vous aider à créer et à générer des pipelines d'orchestration dans votre environnement de développement intégré (IDE). En tirant parti de Gemini pour Google Cloud, l'agent d'ingénierie des données fournit une interface en langage naturel pour automatiser la génération, la modification et la gestion de workflows d'orchestration complexes.

L'extension Data Agent Kit est compatible avec VS Code.

L'agent Data Engineering est compatible avec les tâches d'ingénierie des données courantes suivantes :

Créer des pipelines d'orchestration : générez un pipeline dans un espace de travail vide ou ajoutez des pipelines à des projets existants.
Modifier la structure du pipeline : utilisez le langage naturel pour ajouter, supprimer ou mettre à jour des actions individuelles dans un pipeline d'orchestration.
Gérer les métadonnées d'exécution : modifiez les noms des pipelines et mettez à jour les plannings d'exécution (par exemple, en passant d'une exécution manuelle à une exécution quotidienne).
Résoudre les problèmes d'exécution des pipelines : identifiez de manière proactive la cause première des échecs d'exécution des pipelines et appliquez les correctifs suggérés par l'agent.

Avant de commencer

Avant d'utiliser l'agent Data Engineering dans votre IDE, suivez les étapes décrites dans cette section.

Installez l'extension Data Agent Kit pour Visual Studio Code. L'agent Data Engineering est inclus dans l'extension Data Agent Kit.
Activez l'API Gemini Data Analytics et l'API Dataform.

Activer les API
Installez la version 563.0.0 ou ultérieure du SDK Google Cloud.
Installez les commandes gcloud beta.
Configurez un environnement dans Managed Service pour Apache Airflow. Utilisez la configuration par défaut de l'environnement Managed Service pour Apache Airflow. Ensuite, dans les paramètres Scheduler de l'extension Data Agent Kit, saisissez le nom de votre environnement Managed Service pour Apache Airflow, l'ID du projetGoogle Cloud dans lequel l'environnement est hébergé et la région dans laquelle il se trouve.

Rôles requis

Pour obtenir les autorisations nécessaires pour interagir avec l'agent Data Engineering et ses services sous-jacents, demandez à votre administrateur de vous accorder les rôles IAM suivants sur le projet :

Utilisateur sans état du chat des analyses de données Gemini (roles/geminidataanalytics.dataAgentStatelessUser)
Éditeur de code Dataform (roles/dataform.codeEditor)
Utilisateur de job BigQuery (roles/bigquery.jobUser)
Pour lister les environnements et gérer les DAG Apache Airflow : Utilisateur Composer (roles/composer.user)
Pour déployer le pipeline d'orchestration ou le mettre à jour à l'aide d'un compte de service Managed Airflow désigné : Utilisateur du compte de service (roles/iam.serviceAccountUser)

Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.

Bonnes pratiques

Comprenez que l'agent suit une boucle en plusieurs étapes. L'agent génère d'abord un plan que vous devez approuver. L'agent effectue ensuite l'action (par exemple, écrire du code). Enfin, l'agent vérifie les résultats à l'aide de simulations ou de tests.
Les performances de l'agent dépendent des fichiers ouverts dans votre espace de travail. Utilisez la syntaxe @file ou ouvrez les fichiers SQLX concernés pour fournir à l'agent le contexte nécessaire à la création de votre logique d'orchestration.

Créer un pipeline d'orchestration

Pour créer un pipeline d'orchestration dans un espace de travail vide ou ajouter un pipeline d'orchestration à un espace de travail existant, procédez comme suit :

Ouvrez votre IDE avec l'extension Data Agent Kit installée.
Ouvrez le panneau Demander à l'agent.
Saisissez un prompt en langage naturel pour générer un pipeline d'orchestration. Exemple :
```
 Create an orchestration pipeline that unifies my Google Ads and YouTube Ads
 data into a single marketing table.
```
Une fois que vous avez saisi une requête, cliquez sur Envoyer.
Examinez la structure de pipeline générée et appliquez les modifications.

Mettre à jour une programmation de pipeline

Pour modifier le nom du pipeline d'orchestration ou mettre à jour le calendrier d'exécution (par exemple, en passant d'une exécution manuelle à une exécution quotidienne) :

Ouvrez votre IDE avec l'extension Data Agent Kit installée.
Accédez à la configuration de votre pipeline d'orchestration existant.
Ouvrez le panneau Demander à l'agent.
Saisissez un prompt en langage naturel pour modifier le calendrier du pipeline. Exemple :
```
Update the execution schedule for this pipeline to run daily at 2 AM.
```
L'agent met à jour la configuration sous-jacente, par exemple les paramètres de DAG Apache Airflow.
Examinez et enregistrez le calendrier de pipeline mis à jour.

Modifier les actions du pipeline

Pour ajouter ou supprimer des actions individuelles dans votre pipeline d'orchestration, procédez comme suit :

Ouvrez votre IDE avec l'extension Data Agent Kit installée.
Identifiez l'action de pipeline que vous souhaitez ajouter ou supprimer.
Ouvrez le panneau Demander à l'agent.
Saisissez un prompt en langage naturel pour modifier les actions du pipeline. Exemple :
```
Add a new action to the pipeline that runs the daily_sales_aggregation table
task.
```
Vérifiez et enregistrez la définition du pipeline mise à jour.

Résoudre les problèmes

Si vous rencontrez des erreurs lors de la génération du pipeline d'orchestration, assurez-vous d'avoir rempli tous les prérequis nécessaires pour exécuter l'agent Data Engineering. Pour en savoir plus, consultez la section Avant de commencer.

Pour résoudre les problèmes liés à l'échec d'une orchestration ou d'un pipeline de données, procédez comme suit :

Ouvrez votre IDE avec l'extension Data Agent Kit installée.
Dans votre pipeline ou votre espace de travail de développement, cliquez sur l'onglet Exécutions.
Dans la liste des exécutions, recherchez l'exécution du pipeline de données qui a échoué. Vous pouvez identifier les exécutions ayant échoué dans la colonne État de l'exécution.
Pointez sur l'icône d'échec, puis cliquez sur Examiner. L'agent Data Engineering analyse les journaux et identifie les causes premières, telles que la dérive de schéma ou les incompatibilités de types de données.
Dans le panneau Demander à l'agent, examinez la correction suggérée.
Pour résoudre le problème, saisissez une requête telle que Apply the suggested fix to the pipeline. Vous pouvez également mettre à jour manuellement le code SQLX en fonction de l'analyse de l'agent.

Étapes suivantes

Découvrez comment déployer des pipelines d'orchestration.
Découvrez comment créer des environnements d'exécution qui exécutent des pipelines d'orchestration.
Découvrez comment définir et affiner manuellement vos configurations de pipeline et de déploiement.
Découvrez comment créer et modifier des pipelines d'orchestration à l'aide des commandes Google Cloud CLI.
Découvrez comment utiliser l'agent Data Engineering pour créer et modifier des pipelines de données dans la console Google Cloud .