Einführung in die Datentransformation
In diesem Dokument werden die verschiedenen Möglichkeiten beschrieben, wie Sie Daten in Ihren BigQuery-Tabellen transformieren können.
Weitere Informationen zu Datenintegrationen finden Sie unter Einführung in das Laden, Transformieren und Exportieren von Daten.
Methoden zum Transformieren von Daten
Sie haben folgende Möglichkeiten, Daten in BigQuery zu transformieren:
- Verwenden Sie die Datenbearbeitungssprache (Data Manipulation Language, DML), um Daten in Ihren BigQuery-Tabellen zu transformieren.
- Verwenden Sie materialisierte Ansichten, um die Ergebnisse einer Abfrage automatisch im Cache zu speichern und so die Leistung und Effizienz zu steigern.
- Verwenden Sie kontinuierliche Abfragen, um eingehende Daten in Echtzeit zu analysieren und die Ausgaberow kontinuierlich in eine BigQuery-Tabelle einzufügen oder nach Pub/Sub oder Bigtable zu exportieren.
- Verwenden Sie BigQuery-Pipelines oder Dataform, um Pipelines in BigQuery zu entwickeln, zu testen, zu versionieren, und zu planen.
- Verwenden Sie die Datenvorbereitung mit kontextbezogenen, KI-generierten Transformationsempfehlungen, um Daten für die Analyse zu bereinigen. Die Datenvorbereitung wird von der Dataform API unterstützt.
In der folgenden Tabelle sind die verschiedenen Merkmale der einzelnen Transformationsmethoden aufgeführt.
| Transformationsmethode | Transformationsziel | Definitionsmethode | Transformationshäufigkeit |
|---|---|---|---|
| Datenbearbeitungssprache (DML) | Tabelle (an Ort und Stelle) | SQL-DML | Vom Nutzer initiiert oder geplant |
| Materialisierte Ansichten | Materialisierte Ansicht | SQL-Abfrage | Automatische oder manuelle Aktualisierung |
| Kontinuierliche Abfragen | Tabelle, Pub/Sub-Thema, Bigtable-Tabelle | SQL-Abfrage mit EXPORT DATA | Kontinuierlich |
| Dataform | Tabelle | Dataform-Core (SQLX) | Geplant (Pipelines) |
| BigQuery-Pipelines | Tabelle | BigQuery-Pipelines | Geplant (Pipelines) |
| Datenvorbereitung | Tabelle | Visueller Editor | Geplant |
Sie können auch den Änderungsverlauf einer BigQuery-Tabelle aufrufen um die Transformationen zu prüfen, die in einem bestimmten Zeitraum an einer Tabelle vorgenommen wurden.
Daten mit DML transformieren
Sie können die Datenbearbeitungssprache (DML) verwenden, um Daten in Ihren BigQuery-Tabellen zu transformieren. DML-Anweisungen sind GoogleSQL-Abfragen, mit denen vorhandene Tabellendaten bearbeitet werden, um Zeilen hinzuzufügen oder zu löschen, Daten in vorhandenen Zeilen zu ändern oder Daten mit Werten aus einer anderen Tabelle zusammenzuführen. DML -Transformationen werden auch in partitionierten Tabellen unterstützt.
Sie können mehrere DML-Anweisungen gleichzeitig ausführen. In diesem Fall stellt BigQuery mehrere DML-Anweisungen in die Warteschlange, die Ihre Daten nacheinander transformieren. BigQuery verwaltet die Ausführung gleichzeitiger DML-Anweisungen, basierend auf dem Transformationstyp.
Daten mit materialisierten Ansichten transformieren
Materialisierte Ansichten sind vorausberechnete Ansichten, die die Ergebnisse einer SQL-Abfrage regelmäßig im Cache speichern, um die Leistung und Effizienz zu steigern. BigQuery nutzt vorausberechnete Ergebnisse aus materialisierten Ansichten und liest nach Möglichkeit nur Änderungen aus den Basistabellen, um aktuelle Ergebnisse zu berechnen.
Materialisierte Ansichten werden im Hintergrund vorberechnet, wenn sich die Basistabellen ändern. Alle inkrementellen Datenänderungen aus den Basistabellen werden automatisch zu den materialisierten Ansichten hinzugefügt, ohne dass der Nutzer eingreifen müssen.
Daten mit kontinuierlichen Abfragen transformieren
Kontinuierliche Abfragen sind SQL-Anweisungen, die kontinuierlich ausgeführt werden. Mit kontinuierlichen Abfragen können Sie eingehende Daten in BigQuery in Echtzeit analysieren. Sie können die von einer kontinuierlichen Abfrage erzeugten Ausgaberow in eine BigQuery-Tabelle einfügen oder nach Pub/Sub oder Bigtable exportieren.
Daten mit Dataform transformieren
Mit Dataform können Sie die Datentransformation im ELT-Prozess (Extrahieren, Laden und Transformieren) für die Datenintegration verwalten. Nachdem Sie Rohdaten aus Quellsystemen extrahiert und in BigQuery geladen haben, können Sie sie mit Dataform in eine organisierte, getestete und dokumentierte Suite von Tabellen transformieren. In DML verwenden Sie zwar einen imperativen Ansatz, indem Sie BigQuery anweisen, wie Ihre Daten transformiert werden sollen, in Dataform schreiben Sie jedoch deklarative Anweisungen, wobei Dataform dann die Transformation bestimmt, die zum Erreichen dieses Status erforderlich ist.
In Dataform können Sie SQL-Workflows für die Datentransformation von Datenquellendeklarationen in Ausgabetabellen, Ansichten oder materialisierte Ansichten entwickeln, testen und einer Versionsverwaltung unterziehen. Sie können SQL-Workflows mit Dataform-Core oder reinem JavaScript entwickeln. Der Dataform-Core ist eine Open-Source-Metasprache, die SQL mit SQLX und JavaScript erweitert. Mit Dataform-Core können Sie Abhängigkeiten verwalten, automatisierte Datenqualitätstests einrichten und Tabellen- oder Spaltenbeschreibungen im Code dokumentieren.
Dataform speichert Ihren SQL-Workflow-Code in Repositories und verwendet Git, um Dateiänderungen zu verfolgen. Mit Entwicklungsarbeitsbereichen in Dataform können Sie an den Inhalten des Repositorys arbeiten, ohne die Arbeit anderer Nutzer zu beeinträchtigen, die im selben Repository arbeiten. Sie können Dataform-Repositories mit Git-Drittanbietern verbinden, darunter Azure DevOps Services, Bitbucket, GitHub und GitLab.
Sie können SQL-Workflows mit Dataform-Releasekonfigurationen und Workflowkonfigurationen ausführen oder planen. Alternativ können Sie Ausführungen entweder mit Managed Service for Apache Airflow oder mit Workflows und Cloud Scheduler planen. Während der Ausführung führt Dataform SQL-Abfragen in BigQuery in der Reihenfolge der Objektabhängigkeiten in Ihrem SQL-Workflow aus. Nach der Ausführung können Sie die definierten Tabellen und Ansichten für die Analyse in BigQuery verwenden.
Weitere Informationen zum Erstellen von SQL-Workflows für die Datentransformation in Dataform finden Sie unter Dataform – Übersicht und Dataform-Funktionen.
Daten mit BigQuery-Pipelines transformieren
BigQuery-Pipelines werden von Dataform unterstützt und ermöglichen Ihnen, die Datentransformation in ELT- (Extrahieren, Laden, Transformieren) oder ETL-Prozessen (Extrahieren, Transformieren, Laden) zu erstellen und zu verwalten.
Sie können BigQuery-Pipelines in BigQuery Studio visuell erstellen und verwalten.
Weitere Informationen zum Erstellen von BigQuery-Pipelines finden Sie unter Pipelines erstellen.
Daten in BigQuery vorbereiten
Um den Aufwand für die Datenvorbereitung zu reduzieren, können Sie Daten in BigQuery mit von Gemini generierten Transformationsempfehlungen bereinigen. Die Datenvorbereitung in BigQuery bietet folgende Unterstützung:
- Transformationen und Datenqualitätsregeln anwenden
- Daten standardisieren und anreichern
- Schemazuordnung automatisieren
Sie können die Ergebnisse in einer Vorschau Ihrer Daten prüfen, bevor Sie die Änderungen auf alle Ihre Daten anwenden.
Weitere Informationen finden Sie unter Übersicht zur Datenvorbereitung in BigQuery.
Nächste Schritte
- Weitere Informationen zu DML finden Sie unter Daten mit Datenbearbeitungssprache (DML) transformieren.
- Weitere Informationen zu Dataform finden Sie unter Dataform – Übersicht.