L'agent Data Engineering de l'extension Google Cloud Data Agent Kit peut vous aider à créer et à générer des pipelines d'orchestration dans votre environnement de développement intégré (IDE). En exploitant Gemini pour Google Cloud, l'agent d'ingénierie des données fournit une interface en langage naturel pour automatiser la génération, la modification et la gestion de workflows d'orchestration complexes.
L'extension Data Agent Kit est compatible avec VS Code.
L'agent Data Engineering est compatible avec les tâches d'ingénierie des données courantes suivantes :
- Créer des pipelines d'orchestration : générez un pipeline dans un espace de travail vide ou ajoutez des pipelines à des projets existants.
- Modifier la structure du pipeline : utilisez le langage naturel pour ajouter, supprimer ou mettre à jour des actions individuelles dans un pipeline d'orchestration.
- Gérer les métadonnées d'exécution : modifiez les noms des pipelines et mettez à jour les plannings d'exécution (par exemple, en passant d'une exécution manuelle à une exécution quotidienne).
- Résoudre les problèmes d'exécution de pipelines : identifiez de manière proactive la cause première des échecs d'exécution de pipelines et appliquez les correctifs suggérés par l'agent.
Avant de commencer
Avant d'utiliser l'agent Data Engineering dans votre IDE, suivez les étapes décrites dans cette section.
- Installez l'extension Data Agent Kit pour Visual Studio Code. Data Engineering Agent est inclus dans l'extension Data Agent Kit.
Activez l'API Gemini Data Analytics et l'API Dataform.
Installez la version 563.0.0 ou ultérieure du SDK Google Cloud.
Configurez un environnement dans Managed Service pour Apache Airflow. Utilisez la configuration par défaut de l'environnement Managed Service pour Apache Airflow. Ensuite, dans les paramètres Scheduler de l'extension Data Agent Kit, saisissez le nom de votre environnement Managed Service pour Apache Airflow, l'ID du projetGoogle Cloud où l'environnement est hébergé et la région où il se trouve.
Rôles requis
Pour obtenir les autorisations nécessaires pour interagir avec l'agent Data Engineering et ses services sous-jacents, demandez à votre administrateur de vous accorder les rôles IAM suivants sur le projet :
-
Utilisateur sans état du chat des analyses de données Gemini (
roles/geminidataanalytics.dataAgentStatelessUser) -
Éditeur de code Dataform (
roles/dataform.codeEditor) -
Utilisateur de job BigQuery (
roles/bigquery.jobUser) -
Pour lister les environnements et gérer les DAG Apache Airflow :
Utilisateur Composer (
roles/composer.user) -
Pour déployer le pipeline d'orchestration ou le mettre à jour à l'aide d'un compte de service d'environnement Managed Airflow désigné :
Utilisateur du compte de service (
roles/iam.serviceAccountUser)
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.
Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.
Bonnes pratiques
- Comprenez que l'agent suit une boucle à plusieurs étapes. L'agent génère d'abord un plan que vous devez approuver. L'agent effectue ensuite l'action (par exemple, écrire du code). Enfin, l'agent vérifie les résultats à l'aide de simulations ou de tests.
- Les performances de l'agent dépendent des fichiers ouverts dans votre espace de travail. Utilisez la syntaxe
@fileou ouvrez les fichiers SQLX concernés pour fournir à l'agent le contexte nécessaire à la création de votre logique d'orchestration.
Créer un pipeline d'orchestration
Pour créer un pipeline d'orchestration dans un espace de travail vide ou ajouter un pipeline d'orchestration à un espace de travail existant :
- Ouvrez votre IDE avec l'extension Data Agent Kit installée.
- Ouvrez le panneau Demander à l'agent.
Saisissez un prompt en langage naturel pour générer un pipeline d'orchestration. Exemple :
Create an orchestration pipeline that unifies my Google Ads and YouTube Ads data into a single marketing table.Une fois votre requête saisie, cliquez sur Envoyer.
Examinez la structure de pipeline générée et appliquez les modifications.
Mettre à jour une programmation de pipeline
Pour modifier le nom du pipeline d'orchestration ou mettre à jour le calendrier d'exécution (par exemple, en passant d'une exécution manuelle à une exécution quotidienne) :
- Ouvrez votre IDE avec l'extension Data Agent Kit installée.
- Accédez à la configuration de votre pipeline d'orchestration existant.
- Ouvrez le panneau Demander à l'agent.
Saisissez un prompt en langage naturel pour modifier la planification du pipeline. Exemple :
Update the execution schedule for this pipeline to run daily at 2 AM.L'agent met à jour la configuration sous-jacente, par exemple les paramètres DAG Apache Airflow.
Examinez et enregistrez le calendrier de pipeline mis à jour.
Modifier les actions du pipeline
Pour ajouter ou supprimer des actions individuelles dans votre pipeline d'orchestration, procédez comme suit :
- Ouvrez votre IDE avec l'extension Data Agent Kit installée.
- Identifiez l'action de pipeline que vous souhaitez ajouter ou supprimer.
- Ouvrez le panneau Demander à l'agent.
Saisissez un prompt en langage naturel pour modifier les actions du pipeline. Exemple :
Add a new action to the pipeline that runs the daily_sales_aggregation table task.Vérifiez et enregistrez la définition du pipeline mise à jour.
Résoudre les problèmes
Si vous rencontrez des erreurs lors de la génération du pipeline d'orchestration, assurez-vous d'avoir rempli tous les prérequis nécessaires pour exécuter l'agent Data Engineering. Pour en savoir plus, consultez la section Avant de commencer.
Pour résoudre les problèmes liés à l'échec d'une orchestration ou d'un pipeline de données, procédez comme suit :
- Ouvrez votre IDE avec l'extension Data Agent Kit installée.
- Dans votre pipeline ou votre espace de travail de développement, cliquez sur l'onglet Exécutions.
- Dans la liste des exécutions, recherchez l'exécution du pipeline de données qui a échoué. Vous pouvez identifier les exécutions ayant échoué dans la colonne État de l'exécution.
- Pointez sur l'icône d'échec, puis cliquez sur Examiner. L'agent Data Engineering analyse les journaux et identifie les causes premières, telles que la dérive de schéma ou les incompatibilités de types de données.
- Dans le panneau Demander à l'agent, examinez la correction suggérée.
- Pour résoudre le problème, saisissez une requête telle que
Apply the suggested fix to the pipeline. Vous pouvez également mettre à jour manuellement le code SQLX en fonction de l'analyse de l'agent.
Étapes suivantes
- Découvrez comment utiliser l'agent Data Engineering pour créer et modifier des pipelines d'orchestration à l'aide des commandes Google Cloud CLI.
- Découvrez comment utiliser l'agent Data Engineering pour créer et modifier des pipelines de données dans la console Google Cloud .