Data Engineering Agent in Visual Studio Code verwenden

Der Data Engineering Agent in der Erweiterung Google Cloud Data Agent Kit kann Sie beim Erstellen und Entwickeln von Orchestration-Pipelines in Ihrer integrierten Entwicklungsumgebung (IDE) unterstützen. Durch die Nutzung von Gemini für Google Cloudbietet der Data Engineering Agent eine Schnittstelle in natürlicher Sprache, mit der die Generierung, Änderung und Verwaltung komplexer Orchestrierungsworkflows automatisiert werden kann.

Die Data Agent Kit-Erweiterung wird in VS Code unterstützt.

Der Data Engineering Agent unterstützt die folgenden gängigen Data-Engineering-Aufgaben:

  • Orchestration-Pipelines erstellen: Generieren Sie eine neue Pipeline in einem leeren Arbeitsbereich oder fügen Sie vorhandenen Projekten zusätzliche Pipelines hinzu.
  • Pipelinestruktur ändern: Mit natürlicher Sprache können Sie einzelne Aktionen in einer Orchestrierungspipeline hinzufügen, entfernen oder aktualisieren.
  • Ausführungsmetadaten verwalten: Sie können Pipelinenamen ändern und Ausführungszeitpläne aktualisieren, z. B. von manuellen zu täglichen Ausführungen.
  • Fehler bei Pipelineausführungen beheben: Die Ursache für fehlgeschlagene Pipelineausführungen proaktiv ermitteln und vom Agenten vorgeschlagene Korrekturen anwenden.

Hinweis

Bevor Sie den Data Engineering-Agenten in Ihrer IDE verwenden, müssen Sie die Schritte in diesem Abschnitt ausführen.

  1. Installieren Sie die Data Agent Kit-Erweiterung für Visual Studio Code. Der Data Engineering Agent ist in der Erweiterung „Data Agent Kit“ enthalten.
  2. Aktivieren Sie die Gemini Data Analytics API und die Dataform API.

    APIs aktivieren

  3. Installieren Sie Version 563.0.0 oder höher des Google Cloud SDK.

  4. Installieren Sie die gcloud beta-Befehle.

  5. Konfigurieren Sie eine Umgebung in Managed Service for Apache Airflow. Verwenden Sie die Standardkonfiguration der Managed Service for Apache Airflow-Umgebung. Geben Sie dann in den Scheduler-Einstellungen der Data Agent Kit-Erweiterung den Namen Ihrer Managed Service for Apache Airflow-Umgebung, die ID desGoogle Cloud -Projekts, in dem die Umgebung gehostet wird, und die Region ein, in der sich die Umgebung befindet.

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für das Projekt zuzuweisen, um die Berechtigungen zu erhalten, die Sie für die Interaktion mit dem Data Engineering Agent und den zugrunde liegenden Diensten benötigen:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Best Practices

  • Der Agent durchläuft einen mehrstufigen Zyklus. Der KI-Agent erstellt zuerst einen Plan, den Sie genehmigen müssen. Als Nächstes führt der Agent die Handlung aus (z. B. Code schreiben). Schließlich überprüft der Agent die Ergebnisse mit Probeläufen oder Tests.
  • Die Leistung des Agents hängt von den Dateien ab, die in Ihrem Arbeitsbereich geöffnet sind. Verwenden Sie die Syntax @file oder öffnen Sie die relevanten SQLX-Dateien, um dem Agent den erforderlichen Kontext für die Erstellung Ihrer Orchestrierungslogik zu geben.

Orchestrierungspipeline erstellen

So erstellen Sie eine Orchestrierungspipeline in einem leeren Arbeitsbereich oder fügen einem vorhandenen Arbeitsbereich eine zusätzliche Orchestrierungspipeline hinzu:

  1. Öffnen Sie Ihre IDE mit der installierten Data Agent Kit-Erweiterung.
  2. Öffnen Sie den Bereich Agent fragen.
  3. Geben Sie einen Prompt in natürlicher Sprache ein, um eine Orchestrierungspipeline zu generieren. Beispiel:

     Create an orchestration pipeline that unifies my Google Ads and YouTube Ads
     data into a single marketing table.
    

    Nachdem Sie einen Prompt eingegeben haben, klicken Sie auf Senden.

  4. Sehen Sie sich die generierte Pipelinestruktur an und übernehmen Sie die Änderungen.

Pipelinezeitplan aktualisieren

So ändern Sie den Namen der Orchestrierungspipeline oder aktualisieren den Ausführungszeitplan (z. B. von manuell zu täglich):

  1. Öffnen Sie Ihre IDE mit der installierten Data Agent Kit-Erweiterung.
  2. Rufen Sie die vorhandene Konfiguration der Orchestrierungspipeline auf.
  3. Öffnen Sie den Bereich Agent fragen.
  4. Geben Sie einen Prompt in natürlicher Sprache ein, um den Pipelinezeitplan zu aktualisieren. Beispiel:

    Update the execution schedule for this pipeline to run daily at 2 AM.
    

    Der Agent aktualisiert die zugrunde liegende Konfiguration, z. B. die Apache Airflow-DAG-Einstellungen.

  5. Prüfen und speichern Sie den aktualisierten Pipeline-Zeitplan.

Pipelineaktionen ändern

So fügen Sie Ihrer Orchestrierungspipeline einzelne Aktionen hinzu oder löschen sie:

  1. Öffnen Sie Ihre IDE mit der installierten Data Agent Kit-Erweiterung.
  2. Suchen Sie die Pipelineaktion, die Sie hinzufügen oder löschen möchten.
  3. Öffnen Sie den Bereich Agent fragen.
  4. Geben Sie einen Prompt in natürlicher Sprache ein, um die Pipelineaktionen zu ändern. Beispiel:

    Add a new action to the pipeline that runs the daily_sales_aggregation table
    task.
    
  5. Prüfen Sie die aktualisierte Pipelinedefinition und speichern Sie sie.

Fehlerbehebung

Wenn bei der Generierung der Orchestrierungspipeline Fehler auftreten, prüfen Sie, ob Sie alle Voraussetzungen für die Ausführung des Data Engineering-Agents erfüllt haben. Weitere Informationen finden Sie unter Vorbereitung.

So beheben Sie Fehler bei einem fehlgeschlagenen Orchestrierungs- oder Datenpipeline-Lauf:

  1. Öffnen Sie Ihre IDE mit der installierten Data Agent Kit-Erweiterung.
  2. Klicken Sie in Ihrer Pipeline oder Ihrem Entwicklerarbeitsbereich auf den Tab Ausführungen.
  3. Suchen Sie in der Liste der Ausführungen nach dem fehlgeschlagenen Lauf der Datenpipeline. Fehlgeschlagene Ausführungen können Sie in der Spalte Status der Ausführung erkennen.
  4. Bewegen Sie den Mauszeiger auf das Fehlersymbol und klicken Sie auf Untersuchen. Der Data Engineering-Agent analysiert die Logs und ermittelt die Ursachen, z. B. Schemaabweichungen oder Abweichungen bei Datentypen.
  5. Sehen Sie sich im Bereich Agent fragen den vorgeschlagenen Fix an.
  6. Um das Problem zu beheben, geben Sie einen Prompt wie Apply the suggested fix to the pipeline ein. Alternativ können Sie den SQLX-Code basierend auf der Analyse des Agents manuell aktualisieren.

Nächste Schritte