Übersicht über Workflows

In diesem Dokument wird die Architektur und Ausführung von Workflows in Dataform erläutert.

Mit Dataform können Sie Workflows entwickeln, testen und versionieren, die Sie in BigQuery ausführen können, um Daten für Analysezwecke zu transformieren. Dataform-Workflows sind die Grundlage für BigQuery-Pipelines, Datenvorbereitung, Notebooks und gespeicherte Abfragen.

Sie können Workflows mit dem Dataform-Core mit SQLX-Dateien und optional JavaScript-Dateien oder mit JavaScript entwickeln.

Ein Workflow kann aus den folgenden Objekten bestehen:

Deklarationen von Datenquellen
Deklarationen von BigQuery-Datenquellen, mit denen Sie in Dataform-Tabellendefinitionen und SQL-Vorgängen auf diese Datenquellen verweisen können.
Tables
Tabellen, die Sie in Dataform basierend auf den deklarierten Datenquellen oder anderen Tabellen in Ihrem Workflow erstellen. Dataform unterstützt die folgenden Tabellentypen: Tabelle, inkrementelle Tabelle, Ansicht und materialisierte Ansicht.
Behauptungen
Abfragen für Datenqualitätstests, mit denen Sie Tabellendaten validieren können. Dataform führt Zusicherungen jedes Mal aus, wenn der Workflow aktualisiert wird, und benachrichtigt Sie, wenn Zusicherungen fehlschlagen.
Benutzerdefinierte SQL-Vorgänge
SQL-Anweisungen, die von Dataform unverändert in BigQuery ausgeführt werden.
Umfasst
JavaScript-Dateien mit Definitionen von Variablen und Funktionen, die Sie in Ihrem Workflow wiederverwenden können.

Visualisierung eines Workflows

Sie können sich Ihren Workflow in Form eines gerichteten azyklischen Graphen (Directed Acyclic Graph, DAG) visualisieren lassen. Im DAG werden alle Objekte des Workflows angezeigt, die in Ihrem Arbeitsbereich definiert sind, sowie die Beziehungen zwischen ihnen. Sie können in der DAG heran- und herauszoomen und Drag-and-drop-Navigation verwenden. Wenn Ihr Workflow Kompilierungsfehler enthält, wird in Dataform anstelle des DAG eine Fehlermeldung angezeigt.

Klicken Sie in Ihrem Arbeitsbereich auf Kompiliertes Diagramm, um den DAG Ihres Workflows aufzurufen.

Ausführung eines Workflows

In Ihrem Entwicklungsarbeitsbereich können Sie manuell einen Lauf Ihres gesamten Workflows, einer Auswahl von Aktionen oder einer Auswahl von Tags auslösen.

Sie können Ausführungen mit Dataform-Releasekonfigurationen und Workflowkonfigurationen planen. Erstellen Sie zuerst eine Release-Konfiguration, um Kompilierungsergebnisse für Ihr Repository zu erstellen. Erstellen Sie dann eine Workflowkonfiguration, wählen Sie eine Release-Konfiguration und Workflowaktionen aus, die ausgeführt werden sollen, und legen Sie den Ausführungszeitplan fest.

Alternativ können Sie Ausführungen entweder mit Cloud Composer oder mit Workflows und Cloud Scheduler planen.

Während der Ausführung führt Dataform SQL-Abfragen in BigQuery aus, wobei die Reihenfolge der Objektabhängigkeiten in Ihrem Workflow berücksichtigt wird. Nach der Ausführung können Sie die definierten Tabellen und Ansichten für alle Ihre Analyseanforderungen in BigQuery verwenden.

Optionen für die Ausführungskonfiguration

Wenn Sie eine bestimmte Gruppe von Workflow-Aktionen ausführen möchten, können Sie den ausgewählten Dateien Dataform-Ausführungstags hinzufügen. Anschließend können Sie nur die Dateien mit einem ausgewählten Tag ausführen, wenn Sie einen Lauf manuell auslösen.

Standardmäßig wird Ihr Workflow mit den in der Datei dataform.json definierten Ausführungseinstellungen ausgeführt. Sie können diese Ausführungseinstellungen mit Kompilierungsüberschreibungen überschreiben.

Mit Überschreibungen von Arbeitsbereichskompilierungen können Sie Arbeitsbereiche in isolierte Ausführungsumgebungen umwandeln. Wenn Sie die Ausführung in einem Arbeitsbereich manuell auslösen, wird die Ausgabe von Dataform an einem isolierten Speicherort in BigQuery ausgeführt.

Wenn Sie ein einzelnes Kompilierungsergebnis mit Kompilierungsüberschreibungen erstellen und ausführen möchten, können Sie Anfragen mit der Dataform API übergeben.

Mit Release-Konfigurationen können Sie Kompilierungsüberschreibungen für Ihr gesamtes Repository sowie die Häufigkeit der Erstellung von Kompilierungsergebnissen mit den angewendeten Einstellungen konfigurieren.

Weitere Informationen zum Konfigurieren der Kompilierung und des Codelebenszyklus in Dataform finden Sie unter Einführung in den Codelebenszyklus in Dataform.

Nächste Schritte