Workflow in Dataform erstellen und ausführen

Diese Kurzanleitung richtet sich an Data Engineers und Datenanalysten, die Datentransformationen in BigQuery verwalten möchten. In dieser Kurzanleitung erfahren Sie, wie Sie einen Dataform-Workflow mit Dataform Core erstellen und ausführen. Dataform Core ist ein SQL-basiertes Framework, mit dem Rohdaten in kuratierte, getestete und dokumentierte Daten-Assets umgewandelt werden. Mit Dataform können Sie Ihre Datenmodellierungspipelines in einem zentralen Repository entwickeln und versionieren, um Zuverlässigkeit und Skalierbarkeit zu gewährleisten.

In dieser Kurzanleitung wird beschrieben, wie Sie in Dataform einen Workflow erstellen und in BigQuery ausführen:

Hinweis

  1. Melden Sie sich in Ihrem Google Cloud -Konto an. Wenn Sie mit Google Cloudnoch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the BigQuery and Dataform APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the BigQuery and Dataform APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Ausführen aller Aufgaben in dieser Kurzanleitung benötigen:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Erforderliche Rollen zuweisen

Wenn Sie Workflows in BigQuery ausführen möchten, können Sie ein benutzerdefiniertes Dienstkonto oder Ihr Google-Konto verwenden.

Ihr benutzerdefiniertes Dienstkonto muss die folgenden erforderlichen Rollen haben:

  • BigQuery-Datenbearbeiter (roles/bigquery.dataEditor) für Projekte oder bestimmte BigQuery-Datasets, für die Dataform sowohl Lese- als auch Schreibzugriff benötigt. Dazu gehört in der Regel das Projekt, in dem Ihr Dataform-Repository gehostet wird.
  • BigQuery Data Viewer (roles/bigquery.dataViewer) für Projekte oder bestimmte BigQuery-Datasets, auf die Dataform schreibgeschützten Zugriff benötigt.
  • BigQuery-Jobnutzer (roles/bigquery.jobUser) für das Projekt, in dem sich Ihr Dataform-Repository befindet.

Damit Dataform Ihr benutzerdefiniertes Dienstkonto verwenden kann, muss der Standard-Dataform-Dienst-Agent die folgenden Rollen für die benutzerdefinierte Dienstkontoressource haben:

So weisen Sie diese Rollen zu:

  1. Rufen Sie in der Google Cloud Console die Seite IAM auf.

    IAM aufrufen

  2. Klicken Sie auf Zugriff erlauben.

  3. Geben Sie im Feld Neue Hauptkonten die ID Ihres benutzerdefinierten Dienstkontos ein.

  4. Wählen Sie im Menü Rolle auswählen die folgenden Rollen einzeln aus. Verwenden Sie für jede zusätzliche Rolle Weitere Rolle hinzufügen:

    • BigQuery-Dateneditor
    • BigQuery-Datenbetrachter
    • BigQuery-Jobnutzer
  5. Klicken Sie auf Speichern.

  6. Rufen Sie in der Google Cloud Console die Seite Dienstkonten auf.

    Zur Seite „Dienstkonten“

  7. Wählen Sie Ihr benutzerdefiniertes Dienstkonto aus.

  8. Rufen Sie Hauptkonten mit Zugriff auf und klicken Sie auf Zugriff gewähren.

  9. Geben Sie im Feld Neue Hauptkonten die ID Ihres Dataform-Standarddienst-Agents ein.

    Die ID Ihres Dataform-Standarddienst-Agents hat das folgende Format:

    service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com
    

    Ersetzen Sie PROJECT_NUMBER durch die numerische ID IhresGoogle Cloud Projekts. Sie finden Ihre Google Cloud Projekt-ID imGoogle Cloud Console-Dashboard. Weitere Informationen finden Sie unter Projekte identifizieren.

  10. Fügen Sie in der Liste Rolle auswählen die folgenden Rollen hinzu:

    • Dienstkontonutzer
    • Ersteller von Dienstkonto-Token
  11. Klicken Sie auf Speichern.

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Dataform den erforderlichen Zugriff gewähren.

Dataform-Repository erstellen

Ein Dataform-Repository ist eine Ressource, die ein Git-Repository mit Dataform-Projektcode darstellt, der zum Entwickeln, Verwalten von Versionen und Orchestrieren von Workflows verwendet wird. Wählen Sie eine der folgenden Optionen aus, um ein Repository zu erstellen:

Console

  1. Rufen Sie in der Google Cloud Console die Seite „BigQuery“ → Dataform auf.

    Zu Dataform

  2. Klicken Sie auf Repository erstellen.

  3. Führen Sie auf der Seite Repository erstellen die folgenden Schritte aus:

    1. Geben Sie im Feld Repository-ID den Wert quickstart-repository ein.

    2. Wählen Sie in der Liste Region die Option europe-west4 aus.

    3. Wählen Sie in der Liste Dienstkonto ein benutzerdefiniertes Dienstkonto für das Repository aus.

    4. Erzwingen Sie im Abschnitt Prüfungen auf Berechtigung „actAs“ Berechtigungsprüfungen für Nutzeraktionen für das Repository.

    5. Klicken Sie auf Erstellen.

    6. Klicken Sie auf Zu Repositories.

Sie haben ein Dataform-Repository erstellt. Als Nächstes können Sie einen Entwicklungsarbeitsbereich erstellen und initialisieren.

API

Verwenden Sie zum Erstellen eines Repositorys die Methode projects.locations.repositories.create.

Führen Sie die API-Anfrage mit den folgenden Informationen aus:

  • Endpunkt: POST https://dataform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/repositories
  • Abfrageparameter: repositoryId=REPOSITORY_ID

curl-Befehl:

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -d '{"serviceAccount": "SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com"}' \
  "https://dataform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/repositories?repositoryId=REPOSITORY_ID"

Ersetzen Sie Folgendes:

  • LOCATION: die Google Cloud Region, in der Sie das Repository erstellen möchten, z. B. europe-west4.
  • PROJECT_ID: Die eindeutige Kennung desGoogle Cloud -Projekts, in dem Sie das Dataform-Repository erstellen möchten.
  • REPOSITORY_ID: Die eindeutige Kennung für Ihr neues Dataform-Repository, z. B. quickstart-repository.
  • SERVICE_ACCOUNT_NAME: die ID des benutzerdefinierten Dienstkontos, das zum Ausführen von BigQuery-Jobs erstellt wurde.

Entwicklungsarbeitsbereich erstellen und initialisieren

Ein Dataform-Arbeitsbereich ist eine isolierte Entwicklungsumgebung, ähnlich einem Git-Branch, in der Sie Code bearbeiten und kompilieren können. Wählen Sie eine der folgenden Optionen aus, um einen Arbeitsbereich zu erstellen:

Console

  1. Rufen Sie in der Google Cloud Console die Seite „BigQuery“ → Dataform auf.

    Zu Dataform

  2. Klicken Sie auf quickstart-repository.

  3. Klicken Sie auf  Entwicklungsarbeitsbereich erstellen.

  4. Führen Sie im Fenster Entwicklungsarbeitsbereich erstellen die folgenden Schritte aus:

    1. Geben Sie im Feld Workspace-ID den Wert quickstart-workspace ein.

    2. Klicken Sie auf Erstellen.

    Die Seite „Entwicklerarbeitsbereich“ wird angezeigt.

  5. Klicken Sie auf Arbeitsbereich initialisieren.

API

  1. Verwenden Sie zum Erstellen eines Dataform-Arbeitsbereichs die Methode projects.locations.repositories.workspaces.create.

    Führen Sie die API-Anfrage mit den folgenden Informationen aus:

    • Endpunkt: POST https://dataform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/repositories/REPOSITORY_ID/workspaces
    • Abfrageparameter: workspaceId=WORKSPACE_ID

    curl-Befehl:

    curl -X POST \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json" \
      -d "{}" \
      "https://dataform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/repositories/REPOSITORY_ID/workspaces?workspaceId=WORKSPACE_ID"
    
  2. Um Ihren Arbeitsbereich mit der erforderlichen Konfiguration zu initialisieren, erstellen Sie eine lokale Datei mit dem Namen workflow_settings.yaml und fügen Sie die folgende Konfiguration ein:

    defaultProject: PROJECT_ID
    defaultDataset: dataform
    dataformCoreVersion: CORE_VERSION
    
  3. Führen Sie im Terminal den folgenden Befehl aus, um den Dateiinhalt in einen einzelnen fortlaufenden String zu codieren:

    base64 -w 0 workflow_settings.yaml
    
  4. Kopieren Sie den resultierenden Ausgabestring, um ihn im Feld SETTINGS_DEFINITION in Ihrem JSON-Anfragetext zu verwenden.

  5. Verwenden Sie die Methode projects.locations.repositories.workspaces.writeFile, um die Konfigurationsdatei in Ihrem Arbeitsbereich zu erstellen.

    Führen Sie die API-Anfrage mit den folgenden Informationen aus:

    • Endpunkt: POST https://dataform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/repositories/REPOSITORY_ID/workspaces/WORKSPACE_ID:writeFile

    curl-Befehl:

    curl -X POST \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json" \
      -d '{
        "path": "workflow_settings.yaml",
        "contents": "SETTINGS_DEFINITION"
      }' \
      "https://dataform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/repositories/REPOSITORY_ID/workspaces/WORKSPACE_ID:writeFile"
    

    Ersetzen Sie Folgendes:

    • CORE_VERSION: die aktuelle stabile (nicht Beta-)Version von Dataform Core, z. B. 3.0.43. Die aktuelle Version finden Sie unter Releases.
    • LOCATION: Die Google Cloud Region für Ihr Repository, z. B. europe-west4.
    • PROJECT_ID: die eindeutige Kennung desGoogle Cloud -Projekts, in dem sich Ihr Dataform-Repository befindet.
    • REPOSITORY_ID: Die eindeutige Kennung für Ihr Dataform-Repository, z. B. quickstart-repository.
    • SETTINGS_DEFINITION: Der Inhalt der YAML-Datei als Base64-codierter String.
    • WORKSPACE_ID: Die eindeutige Kennung für Ihren Dataform-Entwicklungsarbeitsbereich, z. B. feature-branch-1.

Ansicht erstellen

Eine Dataform-Ansicht ist ein Asset, das in einer SQLX-Datei definiert ist. Damit können Sie Daten transformieren. Sie dient als Quelle für andere Tabellen oder Ansichten in Ihrem Workflow. Wählen Sie eine der folgenden Optionen aus, um eine Ansicht zu erstellen und zu definieren, die Sie später als Datenquelle für eine Tabelle verwenden:

Console

  1. Rufen Sie in der Google Cloud Console die Seite „BigQuery“ → Dataform auf.

    Zu Dataform

  2. Klicken Sie auf quickstart-repository und dann auf quickstart-workspace.

  3. Klicken Sie im Bereich Dateien neben definitions/ auf das Menü  Mehr.

  4. Klicken Sie auf Datei erstellen.

  5. Führen Sie im Bereich Neue Datei erstellen die folgenden Schritte aus:

    1. Geben Sie im Feld Dateipfad hinzufügen definitions/quickstart-source.sqlx ein.

    2. Klicken Sie auf Datei erstellen.

  6. Maximieren Sie im Bereich Dateien den Ordner „definitions“.

  7. Klicken Sie auf definitions/quickstart-source.sqlx.

  8. Geben Sie in die Datei das folgende Code-Snippet ein:

    config {
      type: "view"
    }
    
    SELECT
      "apples" AS fruit,
      2 AS count
    UNION ALL
    SELECT
      "oranges" AS fruit,
      5 AS count
    UNION ALL
    SELECT
      "pears" AS fruit,
      1 AS count
    UNION ALL
    SELECT
      "bananas" AS fruit,
      0 AS count
    
  9. Klicken Sie auf Format.

API

Wenn Sie eine Ansicht erstellen möchten, müssen Sie zuerst den Inhalt Ihrer SQLX-Datei für die API-Anfrage vorbereiten.

  1. Erstellen Sie eine lokale Datei mit dem Namen quickstart-source.sqlx und fügen Sie das folgende SQL-Code-Snippet ein:

    config {
      type: "view"
    }
    
    SELECT
      "apples" AS fruit,
      2 AS count
    UNION ALL
    SELECT
      "oranges" AS fruit,
      5 AS count
    UNION ALL
    SELECT
      "pears" AS fruit,
      1 AS count
    UNION ALL
    SELECT
      "bananas" AS fruit,
      0 AS count
    
  2. Führen Sie im Terminal den folgenden Befehl aus, um den Dateiinhalt in einen einzelnen fortlaufenden String zu codieren:

    base64 -w 0 quickstart-source.sqlx
    
  3. Kopieren Sie den resultierenden Ausgabestring, um ihn im Feld VIEW_DEFINITION in Ihrem JSON-Anfragetext zu verwenden.

  4. Verwenden Sie die Methode projects.locations.repositories.workspaces.writeFile, um die Ansichtsdefinitionsdatei in Ihrem Arbeitsbereich zu erstellen und zu definieren.

    Führen Sie die API-Anfrage mit den folgenden Informationen aus:

    • Endpunkt: POST https://dataform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/repositories/REPOSITORY_ID/workspaces/WORKSPACE_ID:writeFile

    JSON-Nutzlast (write_view.json):

    {
      "path": "definitions/quickstart-source.sqlx",
      "contents": "VIEW_DEFINITION"
    }
    

    curl-Befehl:

    curl -X POST \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json" \
      -d @write_view.json \
      "https://dataform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/repositories/REPOSITORY_ID/workspaces/WORKSPACE_ID:writeFile"
    

    Ersetzen Sie Folgendes:

    • LOCATION: Die Google Cloud Region für Ihr Repository, z. B. europe-west4.
    • PROJECT_ID: die eindeutige Kennung desGoogle Cloud -Projekts, in dem sich Ihr Dataform-Repository befindet.
    • REPOSITORY_ID: Die eindeutige Kennung für Ihr Dataform-Repository, z. B. quickstart-repository.
    • VIEW_DEFINITION: Der Inhalt der SQLX-Datei als Base64-codierter String.
    • WORKSPACE_ID: Die eindeutige Kennung für Ihren Dataform-Entwicklungsarbeitsbereich, z. B. feature-branch-1.

Tabelle erstellen

Eine Dataform-Tabelle ist ein Asset, das in einer SQLX-Datei definiert ist und in dem transformierte Abfrageergebnisse im Rahmen Ihres Workflows in BigQuery gespeichert werden. Wählen Sie eine der folgenden Optionen aus, um eine Tabelle für Ihren Workflow zu definieren:

Console

  1. Rufen Sie in der Google Cloud Console die Seite „BigQuery“ → Dataform auf.

    Zu Dataform

  2. Klicken Sie auf quickstart-repository und dann auf quickstart-workspace.

  3. Klicken Sie im Bereich Dateien neben definitions/ auf das Menü Mehr und wählen Sie Datei erstellen aus.

  4. Geben Sie im Feld Dateipfad hinzufügen definitions/quickstart-table.sqlx ein.

  5. Klicken Sie auf Datei erstellen.

  6. Maximieren Sie im Bereich Dateien das Verzeichnis definitions/.

  7. Wählen Sie quickstart-table.sqlx aus und geben Sie dann den folgenden Tabellentyp und die SELECT-Anweisung ein:

    config {
      type: "table"
    }
    
    SELECT
      fruit,
      SUM(count) as count
    FROM ${ref("quickstart-source")}
    GROUP BY 1
    
  8. Klicken Sie auf Format.

Nachdem Sie den Tabellentyp definiert haben, löst Dataform einen Abfragevalidierungsfehler aus, da quickstart-source noch nicht in BigQuery vorhanden ist. Dieser Fehler wird behoben, wenn Sie den Workflow ausführen.

API

Wenn Sie eine Tabelle erstellen möchten, müssen Sie zuerst den Inhalt Ihrer SQLX-Datei für die API-Anfrage vorbereiten.

  1. Erstellen Sie eine lokale Datei mit dem Namen quickstart-table.sqlx und fügen Sie das folgende SQL-Code-Snippet ein:

    config {
      type: "table"
    }
    
    SELECT
      fruit,
      SUM(count) as count
    FROM ${ref("quickstart-source")}
    GROUP BY 1
    
  2. Führen Sie im Terminal den folgenden Befehl aus, um den Dateiinhalt in einen einzelnen fortlaufenden String zu codieren:

    base64 -w 0 quickstart-table.sqlx
    
  3. Kopieren Sie den resultierenden Ausgabestring, um ihn im Feld TABLE_DEFINITION in Ihrem JSON-Anfragetext zu verwenden.

  4. Verwenden Sie die Methode projects.locations.repositories.workspaces.writeFile, um eine Tabelle in Ihrem Arbeitsbereich zu definieren. Diese einzelne API-Anfrage ersetzt die manuellen Schritte zum Erstellen einer SQLX-Datei und zum Definieren der Tabellenstruktur und der Abhängigkeiten.

    Führen Sie die API-Anfrage mit den folgenden Informationen aus:

    • Endpunkt: POST https://dataform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/repositories/REPOSITORY_ID/workspaces/WORKSPACE_ID:writeFile

    JSON-Nutzlast (write_table.json):

    {
      "path": "definitions/quickstart-table.sqlx",
      "contents": "TABLE_DEFINITION"
    }
    

    curl-Befehl:

    curl -X POST \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json" \
      -d @write_table.json \
      "https://dataform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/repositories/REPOSITORY_ID/workspaces/WORKSPACE_ID:writeFile"
    

    Ersetzen Sie Folgendes:

    • LOCATION: Die Google Cloud Region für Ihr Repository, z. B. europe-west4.
    • PROJECT_ID: die eindeutige Kennung desGoogle Cloud -Projekts, in dem sich Ihr Dataform-Repository befindet.
    • REPOSITORY_ID: Die eindeutige Kennung für Ihr Dataform-Repository, z. B. quickstart-repository.
    • TABLE_DEFINITION: Der Inhalt der SQLX-Datei als Base64-codierter String.
    • WORKSPACE_ID: Die eindeutige Kennung für Ihren Dataform-Entwicklungsarbeitsbereich, z. B. feature-branch-1.

Workflow in BigQuery ausführen

Wählen Sie eine der folgenden Optionen aus, um den Workflow auszuführen:

Console

  1. Rufen Sie in der Google Cloud Console die Seite „BigQuery“ → Dataform auf.

    Zu Dataform

  2. Klicken Sie auf quickstart-repository und dann auf quickstart-workspace.

  3. Klicken Sie auf Ausführung starten.

  4. Klicken Sie auf Alle Aktionen.

  5. Klicken Sie auf Ausführung starten.

  6. Klicken Sie im geöffneten Dialogfeld auf Zulassen, um BigQuery Pipelines Zugriff auf Ihr Google-Konto zu gewähren.

    Dataform verwendet die Standard-Repository-Einstellungen, um den Inhalt Ihres Workflows in einem BigQuery-Dataset mit dem Namen dataform zu erstellen.

Sie haben erfolgreich einen Dataform-Workflow erstellt und in BigQuery ausgeführt.

API

Wenn Sie Ihren Workflow in BigQuery ausführen möchten, kompilieren Sie Ihre SQLX-Dateien in Standard-SQL und lösen dann einen Aufruf aus.

  1. Verwenden Sie die Methode projects.locations.repositories.compilationResults.create, um ein Kompilierungsergebnis basierend auf Ihrem Arbeitsbereich zu erstellen.

    Führen Sie die API-Anfrage mit den folgenden Informationen aus:

    • Endpunkt: POST https://dataform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/repositories/REPOSITORY_ID/compilationResults

    curl-Befehl:

    curl -X POST \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json" \
      -d '{
        "workspace": "projects/PROJECT_ID/locations/LOCATION/repositories/REPOSITORY_ID/workspaces/WORKSPACE_ID"
      }' \
      "https://dataform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/repositories/REPOSITORY_ID/compilationResults"
    

    Ersetzen Sie Folgendes:

    • LOCATION: Die Google Cloud Region für Ihr Repository, z. B. europe-west4.
    • PROJECT_ID: die eindeutige Kennung desGoogle Cloud -Projekts, in dem sich Ihr Dataform-Repository befindet.
    • REPOSITORY_ID: Die eindeutige Kennung für Ihr Dataform-Repository, z. B. quickstart-repository.
    • WORKSPACE_ID: Die eindeutige Kennung für Ihren Dataform-Entwicklungsarbeitsbereich, z. B. feature-branch-1.
  2. Notieren Sie sich aus der Antwort die ID des Kompilierungsergebnisses im Format /compilationResults/COMPILATION_ID.

  3. Verwenden Sie zum Auslösen eines Workflow-Aufrufs die Methode projects.locations.repositories.workflowInvocations.create. Geben Sie die ID des von Ihnen erstellten Kompilierungsergebnisses an.

    Führen Sie die API-Anfrage mit den folgenden Informationen aus:

    • Endpunkt: POST https://dataform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/repositories/REPOSITORY_ID/workflowInvocations

    curl-Befehl:

    curl -X POST \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json" \
      -d '{
        "compilationResult": "projects/PROJECT_ID/locations/LOCATION/repositories/REPOSITORY_ID/compilationResults/COMPILATION_ID"
      }' \
      "https://dataform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/repositories/REPOSITORY_ID/workflowInvocations"
    

    Ersetzen Sie Folgendes:

    • COMPILATION_ID: Die eindeutige Kennung für Ihr Kompilierungsergebnis.
    • LOCATION: Die Google Cloud Region für Ihr Repository, z. B. europe-west4.
    • PROJECT_ID: Ihre eindeutige Google Cloud Projekt-ID, in der sich das Dataform-Repository befindet.
    • REPOSITORY_ID: Die eindeutige Kennung für Ihr Dataform-Repository, z. B. quickstart-repository.

Sie haben erfolgreich einen Dataform-Workflow erstellt und in BigQuery ausgeführt.

Ausführungslogs in Dataform aufrufen

Wählen Sie eine der folgenden Optionen aus, um Ausführungslogs aufzurufen:

Console

  1. Rufen Sie in der Google Cloud Console die Seite „BigQuery“ → Dataform auf.

    Zu Dataform

  2. Klicken Sie auf quickstart-repository und dann auf quickstart-workspace.

  3. Klicken Sie auf Workflow-Ausführungslogs.

  4. Klicken Sie auf die letzte Ausführung, um deren Details aufzurufen.

API

  1. Verwenden Sie die Methode projects.locations.repositories.workflowInvocations.list, um den Ausführungsverlauf aufzurufen.

    Führen Sie die API-Anfrage mit den folgenden Informationen aus:

    • Endpunkt: GET https://dataform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/repositories/REPOSITORY_ID/workflowInvocations
    • Abfrageparameter: Wenn Sie dafür sorgen möchten, dass die letzten Ausführungen oben in den Ergebnissen angezeigt werden, verwenden Sie ?orderBy=create_time desc.

    curl-Befehl:

      curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        "https://dataform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/repositories/REPOSITORY_ID/workflowInvocations?orderBy=create_time%20desc"
    

    Ersetzen Sie Folgendes:

    • LOCATION: Die Google Cloud Region für Ihr Repository, z. B. europe-west4.
    • PROJECT_ID: Ihre eindeutige Google Cloud Projekt-ID, in der sich das Dataform-Repository befindet.
    • REPOSITORY_ID: Die eindeutige Kennung für Ihr Dataform-Repository, z. B. quickstart-repository.
  2. Mit der Methode projects.locations.repositories.workflowInvocations.query können Sie die detaillierten Logs und den Status einer bestimmten Ausführung aufrufen.

    Führen Sie die API-Anfrage mit den folgenden Informationen aus:

    • Endpunkt: GET https://dataform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/repositories/REPOSITORY_ID/workflowInvocations/WORKFLOW_INVOCATION_ID:query

    curl-Befehl:

      curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        "https://dataform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/repositories/REPOSITORY_ID/workflowInvocations/WORKFLOW_INVOCATION_ID:query"
    

    Ersetzen Sie Folgendes:

    • LOCATION: Die Google Cloud Region für Ihr Repository, z. B. europe-west4.
    • PROJECT_ID: Ihre eindeutige Google Cloud Projekt-ID, in der sich das Dataform-Repository befindet.
    • REPOSITORY_ID: die eindeutige Kennung für Ihr Dataform-Repository, z. B. quickstart-repository.
    • WORKFLOW_INVOCATION_ID: Die eindeutige Kennung für eine bestimmte Workflow-Ausführung. Sie können diese Kennung aus den Ergebnissen einer workflowInvocations.list-Anfrage oder aus dem Feld name einer workflowInvocations.create-Antwort abrufen.

Bereinigen

Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud -Konto die auf dieser Seite verwendeten Ressourcen in Rechnung gestellt werden:

In BigQuery erstelltes Dataset löschen

Löschen Sie das Dataset dataform, um zu vermeiden, dass für BigQuery-Assets Gebühren in Rechnung gestellt werden.

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Maximieren Sie im Bereich Explorer Ihr Projekt und wählen Sie dataform aus.

  3. Klicken Sie auf das Menü  Aktionen und wählen Sie Löschen aus.

  4. Geben Sie im Dialogfeld Dataset löschen den Wert delete in das Feld ein und klicken Sie auf Löschen.

Entwicklungsarbeitsbereich für Dataform löschen

Für das Erstellen von Entwicklungsarbeitsbereichen für Dataform fallen keine Kosten an. So löschen Sie einen Entwicklungsarbeitsbereich:

  1. Rufen Sie in der Google Cloud Console die Seite „BigQuery“ → Dataform auf.

    Zu Dataform

  2. Klicken Sie auf quickstart-repository.

  3. Klicken Sie auf dem Tab Entwicklungsarbeitsbereiche auf das Menü  Mehr quickstart-workspace und wählen Sie dann Löschen aus.

  4. Klicken Sie zur Bestätigung auf Löschen.

Dataform-Repository löschen

Für das Erstellen von Dataform-Repositories fallen keine Kosten an. So löschen Sie ein Repository:

  1. Rufen Sie in der Google Cloud Console die Seite „BigQuery“ → Dataform auf.

    Zu Dataform

  2. Klicken Sie neben quickstart-repository auf das Menü  Mehr und wählen Sie Löschen aus.

  3. Geben Sie im Fenster Repository löschen den Namen des Repositorys ein, um das Löschen zu bestätigen.

  4. Klicken Sie zur Bestätigung auf Löschen.

Nächste Schritte