L'agent d'ingénierie des données de l' extension Google Cloud Data Agent Kit peut vous aider à créer et à concevoir des pipelines d'orchestration dans votre environnement de développement intégré (IDE). En tirant parti de Gemini, l'agent d'ingénierie des données fournit une interface en langage naturel pour automatiser la génération, la modification et la gestion de workflows d'orchestration complexes. Google Cloud
L'extension Data Agent Kit est compatible avec VS Code.
L'agent d'ingénierie des données est compatible avec les tâches d'ingénierie des données courantes suivantes :
- Créer des pipelines d'orchestration : générez un pipeline dans un espace de travail vide ou ajoutez des pipelines supplémentaires à des projets existants.
- Modifier la structure du pipeline : utilisez le langage naturel pour ajouter, supprimer ou mettre à jour des actions individuelles dans un pipeline d'orchestration.
- Gérer les métadonnées d'exécution : modifiez les noms des pipelines et mettez à jour les plannings d'exécution (par exemple, en passant d'une exécution manuelle à une exécution quotidienne).
- Résoudre les problèmes d'exécution des pipelines : identifiez de manière proactive la cause première des échecs d'exécution des pipelines et appliquez les corrections suggérées par l'agent.
Avant de commencer
Avant d'utiliser l'agent d'ingénierie des données dans votre IDE, suivez les étapes de cette section.
- Installez l' extension Data Agent Kit pour Visual Studio Code. L'agent d'ingénierie des données est inclus dans l'extension Data Agent Kit.
Activez l'API Gemini Data Analytics et l'API Dataform.
Installez la version 563.0.0 ou ultérieure du SDK Google Cloud.
Configurez un environnement dans Managed Service pour Apache Airflow. Utilisez la configuration d'environnement par défaut de Managed Service pour Apache Airflow. Ensuite, dans les Scheduler (Planificateur) de l'extension Data Agent Kit, saisissez le nom de votre environnement Managed Service pour Apache Airflow, l'ID du Google Cloud projet dans lequel l'environnement est hébergé et la région dans laquelle il se trouve.
Rôles requis
Pour obtenir les autorisations nécessaires pour interagir avec l'agent d'ingénierie des données et ses services sous-jacents, demandez à votre administrateur de vous accorder les rôles IAM suivants sur le projet :
- Utilisateur sans état du chat des analyses de données Gemini (
roles/geminidataanalytics.dataAgentStatelessUser) - Éditeur de code Dataform (
roles/dataform.codeEditor) - Utilisateur de tâche BigQuery (
roles/bigquery.jobUser) -
Pour lister les environnements et gérer les DAG Apache Airflow :
Utilisateur Composer (
roles/composer.user) -
Pour déployer le pipeline d'orchestration ou le mettre à jour à l'aide d'un compte de service d'environnement Managed Airflow désigné :
Utilisateur de compte de service (
roles/iam.serviceAccountUser)
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.
Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.
Bonnes pratiques
- Sachez que l'agent suit une boucle en plusieurs étapes. Il génère d'abord un plan que vous devez approuver. Ensuite, il effectue l'action (par exemple, écrire du code). Enfin, il vérifie les résultats à l'aide d'exécutions ou de tests à blanc.
- Les performances de l'agent dépendent des fichiers ouverts dans votre espace de travail. Utilisez la syntaxe
@fileou ouvrez les fichiers SQLX pertinents pour fournir à l'agent le contexte nécessaire à la création de votre logique d'orchestration.
Créer un pipeline d'orchestration
Pour créer un pipeline d'orchestration dans un espace de travail vide ou ajouter un pipeline d'orchestration supplémentaire à un espace de travail existant, procédez comme suit :
- Ouvrez votre IDE avec l'extension Data Agent Kit installée.
- Ouvrez le panneau Ask Agent (Demander à l'agent).
Saisissez un prompt en langage naturel pour générer un pipeline d'orchestration. Exemple :
Create an orchestration pipeline that unifies my Google Ads and YouTube Ads data into a single marketing table.Une fois que vous avez saisi un prompt, cliquez sur Send (Envoyer).
Examinez la structure du pipeline généré et appliquez les modifications.
Mettre à jour un planning de pipeline
Pour modifier le nom du pipeline d'orchestration ou mettre à jour le planning d'exécution (par exemple, en passant d'une exécution manuelle à une exécution quotidienne), procédez comme suit :
- Ouvrez votre IDE avec l'extension Data Agent Kit installée.
- Accédez à la configuration de votre pipeline d'orchestration existant.
- Ouvrez le panneau Ask Agent (Demander à l'agent).
Saisissez un prompt en langage naturel pour mettre à jour le planning du pipeline. Exemple :
Update the execution schedule for this pipeline to run daily at 2 AM.L'agent met à jour la configuration sous-jacente, par exemple les paramètres du DAG Apache Airflow.
Examinez et enregistrez le planning de pipeline mis à jour.
Modifier les actions du pipeline
Pour ajouter ou supprimer des actions individuelles dans votre pipeline d'orchestration, procédez comme suit :
- Ouvrez votre IDE avec l'extension Data Agent Kit installée.
- Identifiez l'action de pipeline que vous souhaitez ajouter ou supprimer.
- Ouvrez le panneau Ask Agent (Demander à l'agent).
Saisissez un prompt en langage naturel pour modifier les actions du pipeline. Exemple :
Add a new action to the pipeline that runs the daily_sales_aggregation table task.Examinez et enregistrez la définition du pipeline mise à jour.
Résoudre les problèmes
Si vous rencontrez des erreurs lors de la génération du pipeline d'orchestration, assurez-vous d'avoir rempli toutes les conditions préalables requises pour exécuter l'agent d'ingénierie des données. Pour en savoir plus, consultez la section Avant de commencer.
Pour résoudre les problèmes d'exécution d'un pipeline d'orchestration ou de données, procédez comme suit :
- Ouvrez votre IDE avec l'extension Data Agent Kit installée.
- Dans votre pipeline ou votre espace de travail de développement, cliquez sur l'onglet Executions (Exécutions).
- Dans la liste des exécutions, recherchez l'exécution du pipeline de données ayant échoué. Vous pouvez identifier les exécutions ayant échoué dans la colonne Status (État) de l'exécution.
- Pointez sur l'icône d'échec, puis cliquez sur Investigate (Examiner). L'agent d'ingénierie des données analyse les journaux et identifie les causes premières, telles que la dérive de schéma ou les incompatibilités de types de données.
- Dans le panneau Ask Agent (Demander à l'agent), examinez la correction suggérée.
- Pour résoudre le problème, saisissez un prompt tel que
Apply the suggested fix to the pipeline. Vous pouvez également mettre à jour manuellement le code SQLX en fonction de l'analyse de l'agent.
Étape suivante
- Découvrez comment déployer des pipelines d'orchestration.
- Découvrez comment créer des environnements d'exécution qui exécutent des pipelines d'orchestration.
- Découvrez comment définir et affiner manuellement les configurations de votre pipeline et de votre déploiement.
- Découvrez comment créer et modifier des pipelines d'orchestration à l'aide de commandes Google Cloud CLI.
- Découvrez comment utiliser l'agent d'ingénierie des données pour créer et modifier des pipelines de données dans la Google Cloud console.