Pipelines erstellen

In diesem Dokument wird beschrieben, wie Sie Pipelines in BigQuery erstellen. Pipelines basieren auf Dataform.

Hinweis

  1. Melden Sie sich in Ihrem Google Cloud -Konto an. Wenn Sie mit Google Cloudnoch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the BigQuery, Dataform, and Vertex AI APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the BigQuery, Dataform, and Vertex AI APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

Erforderliche Rollen für Pipelines

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für das Projekt zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Erstellen von Pipelines benötigen:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Weitere Informationen zu Dataform IAM finden Sie unter Zugriff mit IAM steuern.

Erforderliche Rollen für Notebook-Optionen

Bitten Sie Ihren Administrator, Ihnen die IAM-Rolle Notebook Runtime User (roles/aiplatform.notebookRuntimeUser) für das Projekt zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Auswählen einer Laufzeitvorlage in den Notebook-Optionen benötigen. Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Wenn Sie diese Rolle nicht haben, können Sie die Standard-Notebook-Laufzeitspezifikation auswählen.

Standardregion für Code-Assets festlegen

Wenn Sie zum ersten Mal ein Code-Asset erstellen, sollten Sie die Standardregion für Code-Assets festlegen. Sie können die Region für ein Code-Asset nicht mehr ändern, nachdem es erstellt wurde.

Für alle Code-Assets in BigQuery Studio wird dieselbe Standardregion verwendet. So legen Sie die Standardregion für Code-Assets fest:

  1. Rufen Sie die Seite BigQuery auf.

    BigQuery aufrufen

  2. Suchen Sie im Bereich Explorer nach dem Projekt, in dem Sie Code-Assets aktiviert haben.

  3. Klicken Sie neben dem Projekt auf Aktionen ansehen und dann auf Meine Standardregion für Code ändern.

  4. Wählen Sie unter Region die Region aus, die Sie für Code-Assets verwenden möchten.

  5. Klicken Sie auf Auswählen.

Eine Liste der unterstützten Regionen finden Sie unter BigQuery Studio-Standorte.

Pipeline erstellen

Sie können auch die Seite Pipelines & Connections (Pipelines und Verbindungen) in der Google Cloud Konsole verwenden, um eine Dataform-Pipeline zu erstellen, die einen optimierten, BigQuery-spezifischen Workflow verwendet. Dieses Feature befindet sich im Vorschaumodus.

So erstellen Sie eine Pipeline:

  1. Rufen Sie die Seite BigQuery auf.

    BigQuery aufrufen

  2. Klicken Sie in der Tableiste des Editorbereichs auf den Pfeil neben dem +-Zeichen und dann auf Pipeline.

  3. Optional: Wenn Sie die Pipeline umbenennen möchten, klicken Sie auf den Namen der Pipeline und geben Sie dann einen neuen Namen ein.

  4. Klicken Sie auf Jetzt starten und dann auf den Tab Einstellungen.

  5. Wählen Sie im Abschnitt Authentifizierung aus, ob die Pipeline mit den Nutzeranmeldedaten Ihres Google-Kontos oder mit einem Dienstkonto autorisiert werden soll.

    • Wenn Sie die Nutzeranmeldedaten Ihres Google-Kontos verwenden möchten (Vorschau), wählen Sie Mit meinen Nutzeranmeldedaten ausführen aus.

    • Wenn Sie ein Dienstkonto verwenden möchten, wählen Sie Mit ausgewähltem Dienstkonto ausführen aus und wählen Sie dann ein Dienstkonto aus. Wenn Sie ein Dienstkonto erstellen müssen, klicken Sie auf Neues Dienstkonto.

  6. Wählen Sie im Abschnitt Verarbeitungsort einen Verarbeitungsort für die Pipeline aus.

    • Wenn Sie die automatische Auswahl eines Standorts aktivieren möchten, wählen Sie Automatische Standortauswahl aus. Bei dieser Option wird ein Standort anhand der in der Anfrage referenzierten Datasets ausgewählt. Der Auswahlprozess läuft so ab:

      • Wenn in Ihrer Abfrage auf Datasets am selben Standort verwiesen wird, verwendet BigQuery diesen Standort.
      • Wenn Ihre Abfrage auf Datasets aus zwei oder mehr verschiedenen Standorten verweist, tritt ein Fehler auf. Weitere Informationen zu dieser Einschränkung finden Sie unter Regionenübergreifende Dataset-Replikation.
      • Wenn in Ihrer Abfrage keine Datasets referenziert werden, verwendet BigQuery standardmäßig die Multiregion US.
    • Wenn Sie eine bestimmte Region auswählen möchten, wählen Sie Region und dann im Menü Region eine Region aus. Alternativ können Sie die @@location-Systemvariable in Ihrer Abfrage verwenden. Weitere Informationen finden Sie unter Standorte angeben.

    • Wenn Sie einen multiregionalen Standort auswählen möchten, wählen Sie Mehrere Regionen und dann im Menü Mehrere Regionen einen Standort aus.

    Der Ort der Pipelineverarbeitung muss nicht mit dem Standardspeicherort für Code-Assets übereinstimmen.

SQLX-Optionen

So konfigurieren Sie die SQLX-Einstellungen für Ihre Pipeline:

  1. Geben Sie im Feld Standardprojekt den Namen eines vorhandenenGoogle Cloud -Projekts ein. Dieser Wert wird für defaultProject in der Datei workflow_settings.yaml und für defaultDatabase in der Datei dataform.json verwendet. Das Standardprojekt wird von Pipelineaufgaben während der Ausführung verwendet.

  2. Optional: Suchen Sie im Feld Standard-Dataset nach einem vorhandenen Dataset und wählen Sie es aus. Die Liste der verfügbaren Datasets wird nach dem ausgewählten Projekt und Verarbeitungsstandort gefiltert. Dieser Wert wird für defaultDataset in der Datei workflow_settings.yaml verwendet. Das Standard-Dataset wird von Pipeline-Aufgaben während der Ausführung verwendet.

Notebookoptionen

So fügen Sie Ihrer Pipeline ein Notebook hinzu:

  1. Übernehmen Sie im Feld Laufzeitvorlage entweder die Standardlaufzeit für Notebooks oder suchen Sie nach einer vorhandenen Laufzeit und wählen Sie sie aus.

    • Klicken Sie auf den Pfeil daneben, um die Spezifikationen für die Standardlaufzeit aufzurufen.
    • Informationen zum Erstellen einer neuen Laufzeit finden Sie unter Laufzeitvorlage erstellen.
  2. Klicken Sie im Feld Cloud Storage-Bucket auf Durchsuchen und wählen Sie einen Cloud Storage-Bucket zum Speichern der Ausgabe von Notebooks in Ihrer Pipeline aus oder erstellen Sie einen.

  3. Folgen Sie der Anleitung unter Richtlinie auf Bucket-Ebene ein Hauptkonto hinzufügen, um Ihrem benutzerdefinierten Dataform-Dienstkonto ein Hauptkonto für den Cloud Storage-Bucket hinzuzufügen, den Sie zum Speichern der Ausgabe geplanter Pipelineausführungen verwenden möchten, und diesem Hauptkonto die Rolle „Storage-Administrator“ (roles/storage.admin) zuzuweisen.

    Dem ausgewählten benutzerdefinierten Dataform-Dienstkonto muss die IAM-Rolle „Storage Admin“ für den ausgewählten Bucket zugewiesen sein.

Pipelineaufgabe hinzufügen

So fügen Sie einer Pipeline eine Aufgabe hinzu:

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Klicken Sie im linken Bereich auf  Explorer:

    Hervorgehobener Button für den Explorer-Bereich.

    Wenn das linke Steuerfeld nicht angezeigt wird, klicken Sie auf  Linkes Steuerfeld maximieren, um es zu öffnen.

  3. Maximieren Sie im Bereich Explorer Ihr Projekt, klicken Sie auf Pipelines und wählen Sie dann eine Pipeline aus.

  4. Wählen Sie eine der folgenden Optionen aus, um ein Code-Asset hinzuzufügen:

    SQL-Abfrage

    1. Klicken Sie auf Aufgabe hinzufügen und wählen Sie Abfrage aus. Sie können entweder eine neue Abfrage erstellen oder eine vorhandene importieren.

    2. Optional: Wählen Sie im Bereich Abfrageaufgaben – Details im Menü Nach eine Aufgabe aus, die vor Ihrer Abfrage ausgeführt werden soll.

    Neue Abfrage erstellen

    1. Klicken Sie auf das -Pfeilmenü neben Abfrage bearbeiten und wählen Sie entweder Im Kontext oder In neuem Tab aus.

    2. Nach einer vorhandenen Abfrage suchen

    3. Wählen Sie einen Abfragenamen aus und drücken Sie die Eingabetaste.

    4. Klicken Sie auf Speichern.

    5. Optional: Wenn Sie die Abfrage umbenennen möchten, klicken Sie im Pipelinebereich auf den Namen der Abfrage, dann auf Abfrage bearbeiten, oben auf dem Bildschirm auf den vorhandenen Namen der Abfrage und geben Sie dann einen neuen Namen ein.

    Vorhandene Abfrage importieren

    1. Klicken Sie neben Abfrage bearbeiten auf das Menü  und dann auf Kopie importieren.

    2. Suchen Sie nach einer vorhandenen Abfrage, die Sie importieren möchten, oder wählen Sie eine vorhandene Abfrage im Suchbereich aus. Wenn Sie eine Abfrage importieren, bleibt das Original unverändert, da die Quelldatei der Abfrage in die Pipeline kopiert wird.

    3. Klicken Sie auf Bearbeiten, um die importierte Abfrage zu öffnen.

    4. Klicken Sie auf Speichern.

    Notebook

    1. Klicken Sie auf Aufgabe hinzufügen und wählen Sie Notizbuch aus. Sie können entweder ein neues Notebook erstellen oder ein vorhandenes importieren. Informationen zum Ändern der Einstellungen für Notebook-Laufzeitvorlagen finden Sie unter Notebook-Optionen.

    2. Optional: Wählen Sie im Bereich Notebook-Aufgabendetails im Menü Nach eine Aufgabe aus, die vor dem Notebook ausgeführt werden soll.

    Neues Notebook erstellen

    1. Klicken Sie neben Notebook bearbeiten auf das Menü mit dem -Pfeil und wählen Sie entweder Im Kontext oder In neuem Tab aus.

    2. Suchen Sie nach einem vorhandenen Notebook.

    3. Wählen Sie einen Notebook-Namen aus und drücken Sie die Eingabetaste.

    4. Klicken Sie auf Speichern.

    5. Optional: Wenn Sie das Notebook umbenennen möchten, klicken Sie im Pipelinebereich auf den Namen des Notebooks, dann auf Notebook bearbeiten, oben auf dem Bildschirm auf den vorhandenen Namen des Notebooks und geben Sie dann einen neuen Namen ein.

    Vorhandenes Notebook importieren

    1. Klicken Sie neben Notebook bearbeiten auf das Menü  und dann auf Kopie importieren.

    2. Suchen Sie nach einem vorhandenen Notebook, das Sie importieren möchten, oder wählen Sie ein vorhandenes Notebook im Suchbereich aus. Wenn Sie ein Notebook importieren, bleibt das Original unverändert, da die Quelldatei des Notebooks in die Pipeline kopiert wird.

    3. Klicken Sie auf Bearbeiten, um das importierte Notebook zu öffnen.

    4. Klicken Sie auf Speichern.

    Datenvorbereitung

    1. Klicken Sie auf Aufgabe hinzufügen und wählen Sie Datenvorbereitung aus. Sie können entweder eine neue Datenaufbereitung erstellen oder eine vorhandene importieren.

    2. Optional: Wählen Sie im Bereich Details zur Datenvorbereitungsaufgabe im Menü Nach eine Aufgabe aus, die vor der Datenvorbereitung ausgeführt werden soll.

    Neue Datenaufbereitung erstellen

    1. Klicken Sie neben Datenvorbereitung bearbeiten auf das Menü mit dem -Pfeil und wählen Sie entweder Im Kontext oder In neuem Tab aus.

    2. Nach einer vorhandenen Datenaufbereitung suchen

    3. Wählen Sie einen Namen für die Datenvorbereitung aus und drücken Sie die Eingabetaste.

    4. Klicken Sie auf Speichern.

    5. Optional: Wenn Sie die Datenaufbereitung umbenennen möchten, klicken Sie im Pipelinebereich auf den Namen der Datenaufbereitung, dann auf Datenaufbereitung bearbeiten, oben auf den Namen und geben Sie einen neuen Namen ein.

    Vorhandene Datenaufbereitung importieren

    1. Klicken Sie neben Datenaufbereitung bearbeiten auf das Drop-down-Menü  und dann auf Kopie importieren.

    2. Suchen Sie nach einer vorhandenen Datenaufbereitung, die Sie importieren möchten, oder wählen Sie eine vorhandene Datenaufbereitung im Suchbereich aus. Wenn Sie eine Datenaufbereitung importieren, bleibt das Original unverändert, da die Quelldatei der Datenaufbereitung in die Pipeline kopiert wird.

    3. Klicken Sie auf Bearbeiten, um die importierte Datenaufbereitung zu öffnen.

    4. Klicken Sie auf Speichern.

    Tabelle

    1. Klicken Sie auf Aufgabe hinzufügen und wählen Sie Tabelle aus.

    2. Wählen Sie im Bereich Neu erstellen die Option Tabelle oder Inkrementelle Tabelle aus.

    3. Prüfen Sie das Standardprojekt für die Tabelle oder wählen Sie ein neues Projekt aus.

    4. Prüfen Sie das Standard-Dataset für die Tabelle oder wählen Sie ein neues Dataset aus.

    5. Geben Sie einen Namen für die Tabelle ein.

    6. Klicken Sie im Bereich Details zur Tabellenaufgabe auf Öffnen, um die Aufgabe zu öffnen.

    7. Konfigurieren Sie die Aufgabe mit den Einstellungen unter Details > Konfiguration oder im config-Block des Code-Editors für die Tabelle.

      Verwenden Sie für Metadatenänderungen den Tab Konfiguration. Auf diesem Tab können Sie einen bestimmten Wert im config-Block des Code-Editors bearbeiten, z. B. einen String oder ein Array, der wie ein JavaScript-Objekt formatiert ist. So lassen sich Syntaxfehler vermeiden und Sie können prüfen, ob Ihre Einstellungen korrekt sind.

      Optional: Wählen Sie im Menü Nach eine Aufgabe aus, die vor der Tabelle ausgeführt werden soll.

      Sie können die Metadaten für Ihre Pipeline-Aufgabe auch im config-Block im Editor definieren. Weitere Informationen finden Sie unter Tabellen erstellen.

      Der Editor validiert Ihren Code und zeigt den Validierungsstatus an.

    8. Unter Details > Kompilierte Abfragen können Sie den aus dem SQLX-Code kompilierten SQL-Code ansehen.

    9. Klicken Sie auf Ausführen, um den SQL-Code in Ihrer Pipeline auszuführen.

    10. Sehen Sie sich in Abfrageergebnisse die Datenvorschau an.

    Ansehen

    1. Klicken Sie auf Aufgabe hinzufügen und wählen Sie Ansehen aus.

    2. Wählen Sie im Bereich Neu erstellen die Option Ansicht oder Materialisierte Ansicht aus.

    3. Prüfen Sie das Standardprojekt für die Ansicht oder wählen Sie ein neues Projekt aus.

    4. Prüfen Sie das Standard-Dataset für die Ansicht oder wählen Sie ein neues Dataset aus.

    5. Geben Sie einen Namen für die Ansicht ein.

    6. Klicken Sie im Bereich Aufgabendetails ansehen auf Öffnen, um die Aufgabe zu öffnen.

    7. Konfigurieren Sie die Aufgabe mit den Einstellungen unter Details > Konfiguration oder im config-Block des Code-Editors für die Ansicht.

      Verwenden Sie für Metadatenänderungen den Tab Konfiguration. Auf diesem Tab können Sie einen bestimmten Wert im config-Block des Code-Editors bearbeiten, z. B. einen String oder ein Array, der wie ein JavaScript-Objekt formatiert ist. So lassen sich Syntaxfehler vermeiden und Sie können prüfen, ob Ihre Einstellungen korrekt sind.

      Optional: Wählen Sie im Menü Nach eine Aufgabe aus, die vor der Ansicht ausgeführt werden soll.

      Sie können die Metadaten für Ihre Pipeline-Aufgabe auch im config-Block im Editor definieren. Weitere Informationen finden Sie unter Ansicht mit Dataform Core erstellen.

      Der Editor validiert Ihren Code und zeigt den Validierungsstatus an.

    8. Unter Details > Kompilierte Abfragen können Sie den aus dem SQLX-Code kompilierten SQL-Code ansehen.

    9. Klicken Sie auf Ausführen, um den SQL-Code in Ihrer Pipeline auszuführen.

    10. Sehen Sie sich in Abfrageergebnisse die Datenvorschau an.

Pipelineaufgabe bearbeiten

So bearbeiten Sie eine Pipeline-Aufgabe:

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Klicken Sie im linken Bereich auf  Explorer:

    Hervorgehobener Button für den Explorer-Bereich.

    Wenn das linke Steuerfeld nicht angezeigt wird, klicken Sie auf  Linkes Steuerfeld maximieren, um es zu öffnen.

  3. Maximieren Sie im Bereich Explorer Ihr Projekt, klicken Sie auf Pipelines und wählen Sie dann eine Pipeline aus.

  4. Klicken Sie auf die ausgewählte Aufgabe.

  5. Wenn Sie die vorherige Aufgabe ändern möchten, wählen Sie im Menü Nach eine Aufgabe aus, die vor Ihrer Aufgabe ausgeführt werden soll.

  6. Klicken Sie auf Bearbeiten, um den Inhalt der ausgewählten Aufgabe zu bearbeiten.

  7. Bearbeiten Sie auf dem geöffneten neuen Tab den Aufgabeninhalt und speichern Sie die Änderungen an der Aufgabe.

Pipelineaufgabe löschen

So löschen Sie eine Aufgabe aus einer Pipeline:

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Klicken Sie im linken Bereich auf  Explorer:

    Hervorgehobener Button für den Explorer-Bereich.

    Wenn das linke Steuerfeld nicht angezeigt wird, klicken Sie auf  Linkes Steuerfeld maximieren, um es zu öffnen.

  3. Maximieren Sie im Bereich Explorer Ihr Projekt, klicken Sie auf Pipelines und wählen Sie dann eine Pipeline aus.

  4. Klicken Sie auf die ausgewählte Aufgabe.

  5. Klicken Sie im Bereich Aufgabendetails auf Löschen Löschen.

Pipeline teilen

So geben Sie eine Pipeline frei:

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Klicken Sie im linken Bereich auf  Explorer:

    Hervorgehobener Button für den Explorer-Bereich.

    Wenn das linke Steuerfeld nicht angezeigt wird, klicken Sie auf  Linkes Steuerfeld maximieren, um es zu öffnen.

  3. Maximieren Sie im Bereich Explorer Ihr Projekt, klicken Sie auf Pipelines und wählen Sie dann eine Pipeline aus.

  4. Klicken Sie auf Teilen und wählen Sie dann Berechtigungen verwalten aus.

  5. Klicken Sie auf Nutzer/Gruppe hinzufügen.

  6. Geben Sie im Feld Neue Hauptkonten den Namen mindestens eines Nutzers oder einer Gruppe ein.

  7. Wählen Sie unter Rollen zuweisen eine Rolle aus.

  8. Klicken Sie auf Speichern.

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Klicken Sie im linken Bereich auf  Explorer:

    Hervorgehobener Button für den Explorer-Bereich.

    Wenn das linke Steuerfeld nicht angezeigt wird, klicken Sie auf  Linkes Steuerfeld maximieren, um es zu öffnen.

  3. Maximieren Sie im Bereich Explorer Ihr Projekt, klicken Sie auf Pipelines und wählen Sie dann eine Pipeline aus.

  4. Klicken Sie auf Freigeben und wählen Sie dann Link freigeben aus. Die URL für Ihren Pipeline wird in die Zwischenablage Ihres Computers kopiert.

Pipeline ausführen

Wenn Sie eine Pipeline ausführen, können Sie alle Aufgaben in der Pipeline ausführen, bestimmte Aufgaben manuell auswählen oder Aufgaben mit ausgewählten Tags ausführen.

Alle Aufgaben in einer Pipeline ausführen

Wählen Sie eine der folgenden Optionen aus, um die aktuelle Version einer Pipeline manuell auszuführen:

Console

So führen Sie alle Aufgaben in einer Pipeline aus:

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Klicken Sie im linken Bereich auf  Explorer:

    Hervorgehobener Button für den Explorer-Bereich.

    Wenn das linke Steuerfeld nicht angezeigt wird, klicken Sie auf  Linkes Steuerfeld maximieren, um es zu öffnen.

  3. Maximieren Sie im Bereich Explorer Ihr Projekt, klicken Sie auf Pipelines und wählen Sie dann eine Pipeline aus.

  4. Klicken Sie auf  Ausführen > Alle Aufgaben ausführen. Wenn Sie für die Authentifizierung die Option Mit meinen Nutzeranmeldedaten ausführen ausgewählt haben, müssen Sie Ihr Google-Konto autorisieren (Vorschau).

  5. Optional: Wenn Sie die Ausführung prüfen möchten, rufen Sie die letzten manuellen Ausführungen auf.

API

Wenn Sie eine Pipeline manuell ausführen möchten, kompilieren Sie den Standardarbeitsbereich und verwenden Sie das Kompilierungsergebnis, um einen Workflowaufruf zu erstellen.

  1. Verwenden Sie zum Erstellen eines Kompilierungsergebnisses für den Standardarbeitsbereich die Methode projects.locations.repositories.compilationResults.create.

    Führen Sie die API-Anfrage mit den folgenden Informationen aus:

    curl -X POST \
       -H "Authorization: Bearer $(gcloud auth print-access-token)" \
       -H "Content-Type: application/json" \
       -d '{
          "workspace": "projects/PROJECT_ID/locations/LOCATION/repositories/REPOSITORY_ID/workspaces/default"
       }' \
       "https://dataform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/repositories/REPOSITORY_ID/compilationResults"
    

    Ersetzen Sie Folgendes:

    • LOCATION: Die Google Cloud Region für Ihr Repository, z. B. us-central1. Sie finden den Speicherort des Repositorys in der Google Cloud Console. Rufen Sie dazu den Bereich Explorer auf, wählen Sie die Pipeline aus, öffnen Sie den Tab Einstellungen und klicken Sie auf Pipeline in Dataform öffnen. Der Speicherort ist in der URL im Format /locations/LOCATION/ angegeben.
    • PROJECT_ID: die eindeutige Kennung IhresGoogle Cloud -Projekts.
    • REPOSITORY_ID: Die eindeutige Kennung für Ihr Dataform-Repository, z. B. my-secure-repo. Sie finden die Repository-ID in der Google Cloud Console. Rufen Sie dazu den Bereich Explorer auf, wählen Sie die Pipeline aus, öffnen Sie den Tab Einstellungen und sehen Sie sich das Feld Dataform-Repository-ID an.
  2. Suchen Sie im Antworttext nach dem Feld name und kopieren Sie den Wert, z. B. projects/my-project/locations/us-central1/repositories/my-repo/compilationResults/12345-67890.

  3. Lösen Sie die Ausführung der Pipeline mit der Methode projects.locations.repositories.workflowInvocations.create aus.

    Führen Sie die API-Anfrage mit den folgenden Informationen aus:

    curl -X POST \
       -H "Authorization: Bearer $(gcloud auth print-access-token)" \
       -H "Content-Type: application/json" \
       -d '{
          "compilationResult": "COMPILATION_RESULT"
       }' \
       "https://dataform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/repositories/REPOSITORY_ID/workflowInvocations"
    

    Ersetzen Sie Folgendes:

    • COMPILATION_RESULT: Der vollständige Ressourcenname des Kompilierungsergebnisses, das Sie im vorherigen Schritt kopiert haben.
    • LOCATION: Die Google Cloud Region für Ihr Repository, z. B. us-central1.
    • PROJECT_ID: die eindeutige Kennung IhresGoogle Cloud -Projekts.
    • REPOSITORY_ID: Die eindeutige Kennung für Ihr Dataform-Repository, z. B. my-secure-repo.

Ausgewählte Aufgaben in einer Pipeline ausführen

So führen Sie ausgewählte Aufgaben in einer Pipeline aus:

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Klicken Sie im linken Bereich auf  Explorer:

    Hervorgehobener Button für den Explorer-Bereich.

    Wenn das linke Steuerfeld nicht angezeigt wird, klicken Sie auf  Linkes Steuerfeld maximieren, um es zu öffnen.

  3. Maximieren Sie im Bereich Explorer Ihr Projekt, klicken Sie auf Pipelines und wählen Sie dann eine Pipeline aus.

  4. Klicken Sie auf  Ausführen ;> Auszuführende Aufgaben auswählen.

  5. Autorisieren Sie im Bereich Ausführen im Abschnitt Authentifizierung die Ausführung mit den Anmeldedaten Ihres Google-Kontos oder eines Dienstkontos.

    • Wenn Sie die Nutzeranmeldedaten Ihres Google-Kontos verwenden möchten (Vorabversion), wählen Sie Mit Nutzeranmeldedaten ausführen aus.
    • Wenn Sie ein benutzerdefiniertes Dienstkonto verwenden möchten, wählen Sie Mit ausgewähltem Dienstkonto ausführen aus und wählen Sie dann ein benutzerdefiniertes Dienstkonto aus. Wenn Sie ein Dienstkonto erstellen müssen, klicken Sie auf Neues Dienstkonto.
  6. Achten Sie darauf, dass Auswahl von Aufgaben ausgewählt ist.

  7. Suchen Sie im Menü Tasks für die Ausführung auswählen nach bestimmten Tasks und wählen Sie die Tasks aus, die Sie ausführen möchten.

    In der Tabelle Aufgaben sind die ausgewählten Aufgaben aufgeführt. Klicken Sie auf einen Aufgabennamen, um die Aufgabe direkt im SQL-Editor zu öffnen.

  8. Optional: Konfigurieren Sie die folgenden Ausführungsoptionen:

    • Abhängigkeiten einbeziehen: Wählen Sie diese Option aus, um die ausgewählten Aufgaben und ihre Abhängigkeiten auszuführen.
    • Abhängigkeiten einbeziehen: Wählen Sie diese Option aus, um die ausgewählten Aufgaben und ihre transitiven Downstream-Abhängigkeiten auszuführen.
    • Mit vollständiger Aktualisierung ausführen: Wählen Sie diese Option aus, um alle Tabellen von Grund auf neu zu erstellen.
    • Als interaktiven Job mit hoher Priorität ausführen (Standardeinstellung): Wählen Sie diese Option aus, um die Priorität des BigQuery-Abfragejobs festzulegen. Standardmäßig führt BigQuery Abfragen als interaktive Abfragejobs aus, die so schnell wie möglich gestartet werden sollen. Wenn Sie diese Option deaktivieren, werden die Abfragen als Batchabfragejobs mit niedrigerer Priorität ausgeführt.
  9. Klicken Sie auf Ausführen. Wenn Sie Mit Nutzeranmeldedaten ausführen als Authentifizierungsmethode ausgewählt haben, müssen Sie Ihr Google-Konto autorisieren (Vorschau).

  10. Optional: Wenn Sie die Ausführung prüfen möchten, rufen Sie die letzten manuellen Ausführungen auf.

Aufgaben mit ausgewählten Tags in einer Pipeline ausführen

So führen Sie Aufgaben mit ausgewählten Tags in einer Pipeline aus:

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Klicken Sie im linken Bereich auf  Explorer:

    Hervorgehobener Button für den Explorer-Bereich.

    Wenn das linke Steuerfeld nicht angezeigt wird, klicken Sie auf  Linkes Steuerfeld maximieren, um es zu öffnen.

  3. Maximieren Sie im Bereich Explorer Ihr Projekt, klicken Sie auf Pipelines und wählen Sie dann eine Pipeline aus.

  4. Klicken Sie auf  Ausführen ;> Nach Tag ausführen und führen Sie dann einen der folgenden Schritte aus:

    • Klicken Sie auf ein Tag, das Sie ausführen möchten.
    • Klicken Sie auf  Auszuführende Tags auswählen.
  5. Autorisieren Sie im Bereich Ausführen im Abschnitt Authentifizierung die Ausführung mit den Anmeldedaten Ihres Google-Kontos oder eines Dienstkontos.

    • Wenn Sie die Nutzeranmeldedaten Ihres Google-Kontos verwenden möchten (Vorabversion), wählen Sie Mit Nutzeranmeldedaten ausführen aus.
    • Wenn Sie ein benutzerdefiniertes Dienstkonto verwenden möchten, wählen Sie Mit ausgewähltem Dienstkonto ausführen aus und wählen Sie dann ein benutzerdefiniertes Dienstkonto aus. Wenn Sie ein Dienstkonto erstellen müssen, klicken Sie auf Neues Dienstkonto.
  6. Achten Sie darauf, dass Auswahl von Tags ausgewählt ist.

  7. Suchen Sie im Menü Tags für die Ausführung auswählen nach bestimmten Tags und wählen Sie die Tags aus, die Sie ausführen möchten.

    In der Tabelle Aufgaben sind die ausgewählten Aufgaben aufgeführt. Klicken Sie auf einen Aufgabennamen, um die Aufgabe direkt im SQL-Editor zu öffnen.

  8. Optional: Konfigurieren Sie die folgenden Ausführungsoptionen:

    • Abhängigkeiten einbeziehen: Wählen Sie diese Option aus, um die ausgewählten Aufgaben und ihre Abhängigkeiten auszuführen.
    • Abhängigkeiten einbeziehen: Wählen Sie diese Option aus, um die ausgewählten Aufgaben und ihre transitiven Downstream-Abhängigkeiten auszuführen.
    • Mit vollständiger Aktualisierung ausführen: Wählen Sie diese Option aus, um alle Tabellen von Grund auf neu zu erstellen.
    • Als interaktiven Job mit hoher Priorität ausführen (Standardeinstellung): Wählen Sie diese Option aus, um die Priorität des BigQuery-Abfragejobs festzulegen. Standardmäßig führt BigQuery Abfragen als interaktive Abfragejobs aus, die so schnell wie möglich gestartet werden sollen. Wenn Sie diese Option deaktivieren, werden die Abfragen als Batchabfragejobs mit niedrigerer Priorität ausgeführt.
  9. Klicken Sie auf Ausführen. Wenn Sie Mit Nutzeranmeldedaten ausführen als Authentifizierungsmethode ausgewählt haben, müssen Sie Ihr Google-Konto autorisieren (Vorschau).

  10. Optional: Wenn Sie die Ausführung prüfen möchten, rufen Sie die letzten manuellen Ausführungen auf.

Google-Konto autorisieren

Wenn Sie die Ressource mit den Nutzeranmeldedaten Ihres Google-Kontos authentifizieren möchten, müssen Sie BigQuery-Pipelines manuell die Berechtigung erteilen, das Zugriffstoken für Ihr Google-Konto abzurufen und in Ihrem Namen auf die Quelldaten zuzugreifen. Sie können die manuelle Genehmigung über die OAuth-Dialogoberfläche erteilen.

Sie müssen BigQuery-Pipelines nur einmal eine Berechtigung erteilen.

So heben Sie die erteilte Berechtigung auf:

  1. Rufen Sie Ihre Google-Kontoseite auf.
  2. Klicken Sie auf BigQuery-Pipelines.
  3. Klicken Sie auf Zugriff entfernen.

Wenn Ihre Pipeline ein Notebook enthält, müssen Sie Colab Enterprise auch manuell die Berechtigung erteilen, das Zugriffstoken für Ihr Google-Konto abzurufen und in Ihrem Namen auf die Quelldaten zuzugreifen. Sie müssen die Berechtigung nur einmal erteilen. Sie können diese Berechtigung auf der Google-Kontoseite widerrufen.

Nächste Schritte