Der Data-Engineering-Agent in der Erweiterung „Google Cloud Data Agent Kit“ kann Sie beim Erstellen und Entwickeln von Orchestrierungspipelines in Ihrer integrierten Entwicklungsumgebung (IDE) unterstützen. Durch die Nutzung von Gemini for Google Cloud, bietet der Data-Engineering-Agent eine Schnittstelle in natürlicher Sprache, mit der die Generierung, Änderung und Verwaltung komplexer Orchestrierungsworkflows automatisiert werden kann.
Die Erweiterung „Data Agent Kit“ wird in VS Code unterstützt.
Der Data-Engineering-Agent unterstützt die folgenden gängigen Data-Engineering-Aufgaben:
- Orchestrierungspipelines erstellen: Erstellen Sie eine neue Pipeline in einem leeren Arbeitsbereich oder fügen Sie vorhandenen Projekten zusätzliche Pipelines hinzu.
- Pipelinestruktur ändern: Verwenden Sie natürliche Sprache, um einzelne Aktionen in einer Orchestrierungspipeline hinzuzufügen, zu entfernen oder zu aktualisieren.
- Ausführungsmetadaten verwalten: Ändern Sie Pipelinennamen und aktualisieren Sie Ausführungs zeitpläne, z. B. von manuellen zu täglichen Ausführungen.
- Fehler bei Pipelineausführungen beheben: Ermitteln Sie proaktiv die Ursache für fehlgeschlagene Pipelineausführungen und wenden Sie vom Agenten vorgeschlagene Korrekturen an.
Hinweis
Bevor Sie den Data-Engineering-Agenten in Ihrer IDE verwenden, führen Sie die Schritte in diesem Abschnitt aus.
- Installieren Sie die Erweiterung „Data Agent Kit“ für Visual Studio Code. Der Data-Engineering-Agent ist in der Erweiterung „Data Agent Kit“ enthalten.
Aktivieren Sie die Gemini Data Analytics API und die Dataform API.
Installieren Sie Version 563.0.0 oder höher des Google Cloud SDK.
Konfigurieren Sie eine Umgebung in Managed Service for Apache Airflow. Verwenden Sie die Standardkonfiguration für die Managed Service for Apache Airflow-Umgebung. Geben Sie dann in den Scheduler -Einstellungen der Erweiterung „Data Agent Kit“ den Namen Ihrer Managed Service for Apache Airflow-Umgebung, die ID des Google Cloud Projekts, in dem die Umgebung gehostet wird, und die Region ein, in der sich die Umgebung befindet.
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für das Projekt zuzuweisen, um die Berechtigungen zu erhalten, die Sie für die Interaktion mit dem Data-Engineering-Agenten und den zugehörigen Diensten benötigen:
- Gemini Data Analytics Stateless Chat User (
roles/geminidataanalytics.dataAgentStatelessUser) - Dataform Code Editor (
roles/dataform.codeEditor) - BigQuery Job User (
roles/bigquery.jobUser) -
Um Umgebungen aufzulisten und Apache Airflow-DAGs zu verwalten:
Composer-Nutzer (
roles/composer.user) -
Um die Orchestrierungspipeline bereitzustellen oder die Pipeline mit einem bestimmten Dienstkonto für die Managed Airflow-Umgebung zu aktualisieren:
Dienstkontonutzer (
roles/iam.serviceAccountUser)
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Best Practices
- Der Agent folgt einer mehrstufigen Schleife. Zuerst erstellt der Agent einen Plan, den Sie genehmigen müssen. Anschließend führt der Agent die Aktion aus (z. B. Code schreiben). Zum Schluss überprüft der Agent die Ergebnisse mit Probeläufen oder Tests.
- Die Leistung des Agenten hängt von den in Ihrem Arbeitsbereich geöffneten Dateien ab. Verwenden Sie die Syntax
@fileoder öffnen Sie relevante SQLX-Dateien, um dem Agenten den erforderlichen Kontext zum Erstellen Ihrer Orchestrierungslogik zu geben.
Orchestrierungspipeline erstellen
So erstellen Sie eine Orchestrierungspipeline in einem leeren Arbeitsbereich oder fügen einem vorhandenen Arbeitsbereich eine zusätzliche Orchestrierungspipeline hinzu:
- Öffnen Sie Ihre IDE mit der installierten Erweiterung „Data Agent Kit“.
- Öffnen Sie den Bereich Agent fragen.
Geben Sie einen Prompt in natürlicher Sprache ein, um eine Orchestrierungspipeline zu erstellen. Beispiel:
Create an orchestration pipeline that unifies my Google Ads and YouTube Ads data into a single marketing table.Klicken Sie nach der Eingabe eines Prompts auf Senden.
Überprüfen Sie die generierte Pipelinestruktur und übernehmen Sie die Änderungen.
Pipelinezeitplan aktualisieren
So ändern Sie den Namen der Orchestrierungspipeline oder aktualisieren den Ausführungszeitplan (z. B. von manuell zu täglich):
- Öffnen Sie Ihre IDE mit der installierten Erweiterung „Data Agent Kit“.
- Rufen Sie die vorhandene Konfiguration der Orchestrierungspipeline auf.
- Öffnen Sie den Bereich Agent fragen.
Geben Sie einen Prompt in natürlicher Sprache ein, um den Pipelinezeitplan zu aktualisieren. Beispiel:
Update the execution schedule for this pipeline to run daily at 2 AM.Der Agent aktualisiert die zugrunde liegende Konfiguration, z. B. die Apache Airflow-DAG-Einstellungen.
Überprüfen und speichern Sie den aktualisierten Pipelinezeitplan.
Pipelineaktionen ändern
So fügen Sie einzelne Aktionen in Ihrer Orchestrierungspipeline hinzu oder löschen sie:
- Öffnen Sie Ihre IDE mit der installierten Erweiterung „Data Agent Kit“.
- Suchen Sie die Pipelineaktion, die Sie hinzufügen oder löschen möchten.
- Öffnen Sie den Bereich Agent fragen.
Geben Sie einen Prompt in natürlicher Sprache ein, um die Pipelineaktionen zu ändern. Beispiel:
Add a new action to the pipeline that runs the daily_sales_aggregation table task.Überprüfen und speichern Sie die aktualisierte Pipelinedefinition.
Fehlerbehebung
Wenn bei der Generierung der Orchestrierungspipeline Fehler auftreten, prüfen Sie, ob Sie alle Voraussetzungen für die Ausführung des Data-Engineering-Agenten erfüllt haben. Weitere Informationen finden Sie unter Vorbereitung.
So beheben Sie Fehler bei einer Orchestrierungs- oder Datenpipelineausführung:
- Öffnen Sie Ihre IDE mit der installierten Erweiterung „Data Agent Kit“.
- Klicken Sie in Ihrer Pipeline oder Ihrem Entwicklungsarbeitsbereich auf den Tab Ausführungen.
- Suchen Sie in der Liste der Ausführungen die fehlgeschlagene Datenpipelineausführung. Fehlgeschlagene Ausführungen werden in der Spalte Status der Ausführung angezeigt.
- Bewegen Sie den Mauszeiger auf das Fehlersymbol und klicken Sie dann auf Untersuchen. Der Data-Engineering-Agent analysiert die Logs und ermittelt die Ursachen, z. B. Schemadrift oder Dateninkompatibilitäten.
- Überprüfen Sie im Bereich Agent fragen die vorgeschlagene Korrektur.
- Geben Sie zur Behebung des Problems einen Prompt ein, z. B.
Apply the suggested fix to the pipeline. Alternativ können Sie den SQLX-Code basierend auf der Analyse des Agenten manuell aktualisieren.
Nächste Schritte
- Orchestrierungspipelines bereitstellen
- Runner-Umgebungen erstellen, in denen Orchestrierungspipelines ausgeführt werden .
- Pipeline- und Bereitstellungskonfigurationen manuell definieren und optimieren
- Orchestrierungspipelines mit Google Cloud CLI-Befehlen erstellen und ändern
- Data-Engineering-Agenten zum Erstellen und Ändern von Datenpipelines in Google Cloud der Console verwenden